- 博客(17)
- 资源 (1)
- 收藏
- 关注
原创 R语言,绘制heatmap 和treemap
Rheatmapinstall.packages('heatmap')install.packages('treemap')library(heatmap)library(treemap)data=matrix(1:25,nrow=5,ncol=5,Rrow=FALSE,dimnames=list(c('A1','A2','A3','A4','A5'),c('B1','B2','B3','B
2017-03-16 17:21:46 3660
原创 词向量
http://blog.csdn.net/churximi/article/details/51472300 词向量计算 http://www.cnblogs.com/nlp-yekai/p/3760840.html 预处理,剔除空格,标点http://www.cnblogs.com/nlp-yekai/p/3760840.html结巴用法
2017-03-12 22:18:20 284
原创 python matplotlib 编码问题
图标字体乱码一:动态加载import matplotlibfrom pylab import mplmyfont=matplotlib.font_manager.FontProperties(filename='c:\windows\fonts\simkai.ttf',size=14)plt.plot(x,y)plt.title(u'加油',fontproperteries=myfont)
2017-03-01 22:36:04 803
原创 python 正则表达式
python正则表达式 替换 ”’ python检索替换re.sub(pattern, repl, string, count=0, flags=0) ”’ 参数: pattern : 正则中的模式字符串。 repl : 替换的字符串,也可为一个函数。 string : 要被查找替换的原始字符串。 count : 模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。-re.sea
2017-02-26 21:29:26 310
原创 Python index 编写和编码格式
dataframe index导入和导出数据的各种格式 http://pandas.pydata.org/pandas-docs/stable/io.html 1)导入的数据,不需要index的输入方式import pandas as pddf=pd.Dataframe('c:/users/sun/desktop/text.csv',encoding='utf-8',(index_col=0 o
2017-02-23 17:02:05 718
原创 词云构建
在Python中构建词云,采用的是wordcloud库官网: https://amueller.github.io/word_cloud/ github: https://github.com/amueller/word_cloud例子:http://blog.csdn.net/kevinelstri/article/details/53142810 import matplotlib.pypl
2017-02-23 16:20:43 735
原创 决策与判断读书笔记
这本书主要是对人类思考的出现偏差的分析原因自身因素在找原因分为两种:一种为归己因素,一种是情境因素 归己:是从自己身上找原因 情境:是从归结于其他外在因素 当分析自己问题时,基本上都会归结为情境因素,分析别人时,基本上会归结为归己因素直觉在看问题时,有很多时候从直觉出发,在判定问题时,人们总是会通过表面代表性的词语去判断这个人的性格和工作,但很多时候,其实不一定,比如:喜欢文学,这个人一定是图
2017-02-11 22:47:24 611
原创 python 空值清洗排序
删除行df.drop[‘column.name’]del row with nandf.dropna()del row with definition rowdf.dropna(axis=1,thresh=3)fill nadf.fillna(0) df.fillna({1:0,2:0.5}) df.fillna(method=’ffill’) 上面的值填充给nanorderrow and i
2017-02-04 09:56:47 1198
原创 python 编码问题
编码网址 https://www.v2ex.com/t/163786python2.7 编码* 当python2.7输入中文 出现乱码原因是:sys.getdefaultencoding()默认为asccii编码,前面加个u‘中文’表示为u‘中文’.encoding(‘utf-8’)转化为utf-8类型,当print时,才能打印出来*中文编码类型有-encode(‘gbk’) -encode(’g
2017-02-04 09:39:02 317
原创 word cloud install
提示错误error: Microsoft Visual C++ 9.0 is required (Unable to find vcvarsall.bat). Getit from http://aka.ms/vcpython27 从网址内下载vcpython27 * 再安装worldcloud* 语句: python setup.py install重启spyder 即可
2017-01-29 08:03:29 283
转载 python list conclusion
p=list.index(value)list为列表的名字value为查找的值p为value在list的位置 以下内容引自:http://www.linuxidc.com/Linux/2012-01/51638.htmPython3.2.2列表操作总结list操作:快速创建list、新增item、删除item、重新赋值item、颠倒item顺
2017-01-23 15:53:38 271
原创 networknx
networknxG=nx.Graph() -G=G.add_node()G=.add_edge()code` python import networkx as nx G = nx.random_graphs.barabasi_albert_graph(1000,3) #生成一个n=1000,m=3的BA无标度网络 print G.degree(0)
2017-01-22 19:13:52 550
转载 net work2
图的类型 Graph类是无向图的基类,无向图能有自己的属性或参数,不包含重边,允许有回路,节点可以是任何hash的python对象,节点和边可以保存key/value属性对。该类的构造函数为Graph(data=None,**attr),其中data可以是边列表,或任意一个Networkx的图对象,默认为none;attr是关键字参数,例如key=value对形式的属性。
2017-01-22 15:18:46 407
转载 net work安装
NetworkX是一个用Python语言开发的图论与复杂网络建模工具,内置了常用的图与复杂网络分析算法,可以方便的进行复杂网络数据分析、仿真建模等工作。网络上有阎老师的相关博客教程,在此表示敬意,点击进入。 结合本人的使用经验,希望做到知其然而知其所以然的使用,提供相对傻瓜和全面的使用经验,也是自己的一笔知识财富积累。 1.环境的安装
2017-01-22 15:17:33 548
转载 python_network 三
0.Matplotlib小记 Matplotlib的笔记一直拖着,最近发现自己从图书馆借来的书要到期了,还是做个笔记,免得到时候要查阅又麻烦了。 import matplotlib.pyplot as plt 默认情况下,画出来的是点连成的线,针对点和线,其区分的一个较为容易的是格式的设置。 1.点和线的设置 形
2017-01-22 15:15:17 3499
原创 文章标题
TF-IDF:计算文档词频的加权算法TFTF:term frequency 词频IDF逆文档率 log(总文档数/(含词频的文档数+1))TF-IDF=TF*IDF 以上是计算词频的权重余弦相似(这个是计算文档的相似性)a:利用TF-IDF进行分词,对文档的分词利用余弦公式求距离,越相似,余弦值越大 余弦公式:cos(theta)=(a^2+b^2-c^2)/2ab
2017-01-11 22:02:48 312
原创 文章标题
暗时间读书笔记暗时间 利用一切零碎的时间进行问题的思考,整合,这样形成习惯问题的规划性 将大问题转化为小问题,设置合理的进度条,对问题进行复习,回顾,思路创新思考 要将思考的内容进行书写下来,这样有利于思路的扩展,发现更多的问题抽象 进行抽象总结,抽象到低沉,利于灵活应用
2017-01-10 22:34:34 214
feature extration
2016-07-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人