- 博客(2)
- 收藏
- 关注
原创 分词工具包比较&jieba分词
1 分词工具包介绍现有中文分词工具包有多种,包括ICTCLAD,MMSEG4J,IKAnalyser,JIEBA,THULAC,HanLP等等。1.1 JIEBAJIEBA是PYTHON平台上比较活跃的中文分词包 ,它支持三种分词模式:(1)精确模式,试图将句子最精确地切开,适合文本分析;(2)全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;(3)搜索引...
2019-07-26 15:51:30 991
原创 selenium爬取维基百科信息
目录selenium爬取维基百科信息软件和包的安装爬取某一固定网页的维基百科数据selenium爬取维基百科信息由于中文版维基百科被屏蔽,所以首先需要解决连接问题,采用的策略是使用VPN连接外网,Selenium调用Firefox浏览器进行数据采集。操作环境:JetBrains PyCharm 2018.2.2 x64编译器,Python 3.6软件和包的安装安装Firefox浏览器(...
2019-07-26 15:50:03 858
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人