1. scikit-learn(sklearn) 机器学习包
包含了很多机器学习函数以及测试这些函数的现成数据集。
2. Numpy、SciPy
无需多说,强大的科学计算库。
3. Networkx 网络分析库
可以构建图形化社交网络
4. 文本挖掘库:
(1)nltk(Natural Language Toolkit):最经典的自然语言工具包,拥有庞大的语料库。
(2)Gensim 一个很受欢迎的文本挖掘模块,可以用于主题建模(?)。
5. 爬虫相关:
(1)urllib:经典的网页内容抓取工具。
(2)BeautifulSoup:用于对抓取的html文本进行处理(变成自然语言正常人能看懂的格式)。
6. matplotlib:绘图工具