- 博客(2)
- 资源 (7)
- 收藏
- 关注
原创 百度百科爬虫爬人物信息
百度百科爬虫爬人物信息,主要是政治人物的部分信息。部分代码适应性不高,需进一步修改。并未设置自动化爬虫,只是对字段进行分类处理。from bs4 import BeautifulSoupimport pandas as pdimport requestsimport jsonimport timeimport urllibimport refrom url
2017-10-31 10:30:47 2539
原创 关于相似地址识别的Python代码
工作需要,利用中国省、市、乡等基本行政规划以及基本的地址分词字符如街、道之类的,以正则表达式分词的方式做了一个相似地址的判断程序。该程序首先利用正则表达式对地址进行分词,将部分常见的无法用于区分的字段删除,如街、道、号等,将分词后的结果放到gensim进行文本相似度判断。大致的判断结果如下:http://download.csdn.net/download/sallyyoung_sh/10019184原始地址相似地址列表上海市奉贤区南桥镇光明工
2017-10-13 10:21:37 4219 2
Python使用正则表达式以及gensim查找相似地址的算法
2017-10-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人