自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (1)
  • 收藏
  • 关注

原创 R语言,绘制heatmap 和treemap

Rheatmapinstall.packages('heatmap')install.packages('treemap')library(heatmap)library(treemap)data=matrix(1:25,nrow=5,ncol=5,Rrow=FALSE,dimnames=list(c('A1','A2','A3','A4','A5'),c('B1','B2','B3','B

2017-03-16 17:21:46 3660

原创 词向量

http://blog.csdn.net/churximi/article/details/51472300 词向量计算 http://www.cnblogs.com/nlp-yekai/p/3760840.html 预处理,剔除空格,标点http://www.cnblogs.com/nlp-yekai/p/3760840.html结巴用法

2017-03-12 22:18:20 284

原创 python matplotlib 编码问题

图标字体乱码一:动态加载import matplotlibfrom pylab import mplmyfont=matplotlib.font_manager.FontProperties(filename='c:\windows\fonts\simkai.ttf',size=14)plt.plot(x,y)plt.title(u'加油',fontproperteries=myfont)

2017-03-01 22:36:04 803

原创 python 正则表达式

python正则表达式 替换 ”’ python检索替换re.sub(pattern, repl, string, count=0, flags=0) ”’ 参数: pattern : 正则中的模式字符串。 repl : 替换的字符串,也可为一个函数。 string : 要被查找替换的原始字符串。 count : 模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。-re.sea

2017-02-26 21:29:26 310

原创 Python index 编写和编码格式

dataframe index导入和导出数据的各种格式 http://pandas.pydata.org/pandas-docs/stable/io.html 1)导入的数据,不需要index的输入方式import pandas as pddf=pd.Dataframe('c:/users/sun/desktop/text.csv',encoding='utf-8',(index_col=0 o

2017-02-23 17:02:05 718

原创 词云构建

在Python中构建词云,采用的是wordcloud库官网: https://amueller.github.io/word_cloud/ github: https://github.com/amueller/word_cloud例子:http://blog.csdn.net/kevinelstri/article/details/53142810 import matplotlib.pypl

2017-02-23 16:20:43 735

原创 决策与判断读书笔记

这本书主要是对人类思考的出现偏差的分析原因自身因素在找原因分为两种:一种为归己因素,一种是情境因素 归己:是从自己身上找原因 情境:是从归结于其他外在因素 当分析自己问题时,基本上都会归结为情境因素,分析别人时,基本上会归结为归己因素直觉在看问题时,有很多时候从直觉出发,在判定问题时,人们总是会通过表面代表性的词语去判断这个人的性格和工作,但很多时候,其实不一定,比如:喜欢文学,这个人一定是图

2017-02-11 22:47:24 611

原创 python 空值清洗排序

删除行df.drop[‘column.name’]del row with nandf.dropna()del row with definition rowdf.dropna(axis=1,thresh=3)fill nadf.fillna(0) df.fillna({1:0,2:0.5}) df.fillna(method=’ffill’) 上面的值填充给nanorderrow and i

2017-02-04 09:56:47 1198

原创 python 编码问题

编码网址 https://www.v2ex.com/t/163786python2.7 编码* 当python2.7输入中文 出现乱码原因是:sys.getdefaultencoding()默认为asccii编码,前面加个u‘中文’表示为u‘中文’.encoding(‘utf-8’)转化为utf-8类型,当print时,才能打印出来*中文编码类型有-encode(‘gbk’) -encode(’g

2017-02-04 09:39:02 317

原创 word cloud install

提示错误error: Microsoft Visual C++ 9.0 is required (Unable to find vcvarsall.bat). Getit from http://aka.ms/vcpython27 从网址内下载vcpython27 * 再安装worldcloud* 语句: python setup.py install重启spyder 即可

2017-01-29 08:03:29 283

转载 python list conclusion

p=list.index(value)list为列表的名字value为查找的值p为value在list的位置 以下内容引自:http://www.linuxidc.com/Linux/2012-01/51638.htmPython3.2.2列表操作总结list操作:快速创建list、新增item、删除item、重新赋值item、颠倒item顺

2017-01-23 15:53:38 271

原创 networknx

networknxG=nx.Graph() -G=G.add_node()G=.add_edge()code` python import networkx as nx G = nx.random_graphs.barabasi_albert_graph(1000,3) #生成一个n=1000,m=3的BA无标度网络 print G.degree(0)

2017-01-22 19:13:52 550

转载 net work2

图的类型     Graph类是无向图的基类,无向图能有自己的属性或参数,不包含重边,允许有回路,节点可以是任何hash的python对象,节点和边可以保存key/value属性对。该类的构造函数为Graph(data=None,**attr),其中data可以是边列表,或任意一个Networkx的图对象,默认为none;attr是关键字参数,例如key=value对形式的属性。    

2017-01-22 15:18:46 407

转载 net work安装

NetworkX是一个用Python语言开发的图论与复杂网络建模工具,内置了常用的图与复杂网络分析算法,可以方便的进行复杂网络数据分析、仿真建模等工作。网络上有阎老师的相关博客教程,在此表示敬意,点击进入。        结合本人的使用经验,希望做到知其然而知其所以然的使用,提供相对傻瓜和全面的使用经验,也是自己的一笔知识财富积累。       1.环境的安装       

2017-01-22 15:17:33 548

转载 python_network 三

0.Matplotlib小记      Matplotlib的笔记一直拖着,最近发现自己从图书馆借来的书要到期了,还是做个笔记,免得到时候要查阅又麻烦了。     import matplotlib.pyplot as plt      默认情况下,画出来的是点连成的线,针对点和线,其区分的一个较为容易的是格式的设置。      1.点和线的设置       形

2017-01-22 15:15:17 3499

原创 文章标题

TF-IDF:计算文档词频的加权算法TFTF:term frequency 词频IDF逆文档率 log(总文档数/(含词频的文档数+1))TF-IDF=TF*IDF 以上是计算词频的权重余弦相似(这个是计算文档的相似性)a:利用TF-IDF进行分词,对文档的分词利用余弦公式求距离,越相似,余弦值越大 余弦公式:cos(theta)=(a^2+b^2-c^2)/2ab

2017-01-11 22:02:48 312

原创 文章标题

暗时间读书笔记暗时间 利用一切零碎的时间进行问题的思考,整合,这样形成习惯问题的规划性 将大问题转化为小问题,设置合理的进度条,对问题进行复习,回顾,思路创新思考 要将思考的内容进行书写下来,这样有利于思路的扩展,发现更多的问题抽象 进行抽象总结,抽象到低沉,利于灵活应用

2017-01-10 22:34:34 214

feature extration

2016-07-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除