文章转载于:http://blog.csdn.net/u010454729/article/details/45055225
0.伯乐在线:
伯乐在线python资源板块:http://hao.jobbole.com/?catid=144。有介绍了150多种python包,你想要的几乎都可以在里面找到.
1.numpy:
科学计算
来自《用Python做科学计算》http://sebug.net/paper/books/scipydoc/numpy_intro.html(中文版)
来自图灵社区:http://www.ituring.com.cn/minibook/804(中文版)
来自sciPy:http://wiki.scipy.org/Tentative_NumPy_Tutorial(英文版)
2.pandas:
用于科学计算
官网:http://pandas.pydata.org/pandas-docs/stable/index.html
10分钟搞定pandas(来自官网):
pandas基础(博友的博客):http://my.oschina.net/lionets/blog/277847 (中文版)
pandas数据规整(博友博客):http://my.oschina.net/lionets/blog/279785(中文版)
3.sklearn:
用于机器学习的包
这个就不用说了,官网资料最全:http://scikit-learn.org/stable/ 。大大小小的机器学习包以及降维、特征抽取、计算得分、模型选择、集成分类器等一大堆的好资料,可通过目录来找:http://scikit-learn.org/0.15/user_guide.html,http://scikit-learn.org/stable/modules/classes.html#module-sklearn.linear_model
4.xml:
读取xml文件可有多种方式,python自带的xml,lxml,beautifulsoup(注重html解析)
来自python标准库:https://docs.python.org/2/library/markup.html
python读取xml文件(博友博客):http://www.cnblogs.com/fnng/p/3581433.html
lxml官网:http://lxml.de/
W3CSCHOOL.CC:http://www.w3cschool.cc/python/python-xml.html
5.networkx:
用于社交网络,里面定义的很多图模型,几乎很多东西都可以化为图模型,这个包比较有用。前提是善于将目前的问题化为图模型,再用这神器。
github:http://networkx.github.io/documentation/latest/examples/index.html
6.ctype:
用于调用和C库链接。
7.nltk:
《python自然语言处理》:http://download.csdn.net/download/daogepiqian/8528615
来自我爱自然语言处理:http://www.52nlp.cn/python自然语言处理实践-在nltk中使用斯坦福中文分词器
8.matplotlib:python画图:官网http://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.plot
9.gensim:
自然语言处理之主题模型:
官网:http://radimrehurek.com/gensim/index.html
来自我爱自然语言处理:http://www.52nlp.cn/如何计算两个文档的相似度二
10.sympy:
Python的数学符号计算库:官网http://www.sympy.org/en/index.html
用python做科学计算:http://sebug.net/paper/books/scipydoc/sympy_intro.html
11.pyspark:
属于python的spark:
官网:http://spark.apache.org/docs/0.9.0/python-programming-guide.html
文档:http://spark.apache.org/docs/0.9.0/api/pyspark/index.html
#------------------------------------------------------------------------------
工具篇:
T0.开发工具:
anaconda:集成了python相当多的包,几乎大部分都可以在这里找得到,numpy, scipy, sklearn, pandas, nltk等等,但似乎没有gensim这个做LDA的包,要自己下载。https://store.continuum.io/cshop/anaconda/
canopy,没怎么用过,也贴上来:https://www.enthought.com/products/canopy/
annaconda和canopy两个工具的介绍(博友博客):http://www.cnblogs.com/sdlypyzq/p/3909107.html
T1.crfsuite:
CRF工具之一crfsuite,比crf++效果还好的工具,里面以组块分析为例子:http://www.chokkan.org/software/crfsuite/tutorial.html,http://www.chokkan.org/software/crfsuite/manual.html
crfsuite在ubuntu下的一些配置:http://blog.sina.com.cn/s/blog_e8c03f9f0102v5py.html
CRF++,官网:http://taku910.github.io/crfpp/,0.58版本下载(有的时候在官网下载不下来,又有的时候版本):http://pan.baidu.com/s/1c0nj7iw
#------------------------------------------------------------------------------
功能篇:
F0.自然语言处理:
nltk:
polyglot:支持上百种语言的断词、语种检测、命名实体识别、词性标注、情感分析、词嵌入、形态分析等。
文档:http://polyglot.readthedocs.org/en/latest/
github:https://github.com/aboSamoor/polyglot
F1.机器学习:
伯乐头条文章介绍:http://python.jobbole.com/81135/
sklearn, nltk
F2.系统相关:
os:
来自51CTO.com:http://developer.51cto.com/art/201003/186045.htm
sys,
F3.零散基础:
random, time
F4:推荐系统:
carb:官网:http://muricoca.github.io/crab/tutorial.html
recsys(实现了SVD、Neighborhood SVD推荐算法):github:https://github.com/ocelma/python-recsys
#------------------------------------------------------------------------------
在遇到的过程中,待不断增加。博友若是看到好的文档,也欢迎推荐。
当然,最好的说明文档,当属
import XX
help(XX)