![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习——文本挖掘
sallyyoung_sh
这个作者很懒,什么都没留下…
展开
-
如何用Python Pandas以及正则表达式提取地址中的省份
如题。假设数据在data数据框中,列名为"地址"。#筛选含省份的字段data[data['地址'].str.match('.+省']['地址'].str.extract('(.+[省])',expand=True)#去掉省份前特殊字符的样本data1=data.iloc[:,0].str.replace('.+(号|镇|街|路|乡|道|村|巷|侧|\d|()',‘’)#去掉原创 2017-08-25 13:52:12 · 15009 阅读 · 2 评论 -
Python制作的Tries树查找地址中包含的省份
class Trie: root={} END='/' def add_province(self,word): node=self.root for c in word: if c=='省': node[self.END]='省' elif c=='自': node[self.END]='自治区' break else: node=原创 2017-08-31 14:42:57 · 547 阅读 · 0 评论 -
关于相似地址识别的Python代码
工作需要,利用中国省、市、乡等基本行政规划以及基本的地址分词字符如街、道之类的,以正则表达式分词的方式做了一个相似地址的判断程序。该程序首先利用正则表达式对地址进行分词,将部分常见的无法用于区分的字段删除,如街、道、号等,将分词后的结果放到gensim进行文本相似度判断。大致的判断结果如下:http://download.csdn.net/download/sallyyoung_sh/10019184原始地址相似地址列表上海市奉贤区南桥镇光明工原创 2017-10-13 10:21:37 · 4161 阅读 · 2 评论 -
百度百科爬虫爬人物信息
百度百科爬虫爬人物信息,主要是政治人物的部分信息。部分代码适应性不高,需进一步修改。并未设置自动化爬虫,只是对字段进行分类处理。from bs4 import BeautifulSoupimport pandas as pdimport requestsimport jsonimport timeimport urllibimport refrom url原创 2017-10-31 10:30:47 · 2501 阅读 · 0 评论