自然语言处理
weixin_41611045
这个作者很懒,什么都没留下…
展开
-
正则表达式1:基本知识
一、正则匹配的基本1、re.compile 函数compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用。语法格式为:pattern : 一个字符串形式的正则表达式flags : 可选,表示匹配模式,比如忽略大小写,多行模式等,具体参数为:re.I 忽略大小写re.L 表示特殊字符集 \w, \W,...原创 2019-10-27 20:45:04 · 631 阅读 · 0 评论 -
python正则匹配1:re函数
一、正则表达式正则表达式是python中进行字符串匹配的模式,其中包括特定字符串的寻找,替换等等操作,其中正则表达式存在python的re模块,主要有下面四种函数1、search(pattern, string) 在一个字符串中查找匹配2、findall(pattern, string ,flags=0) 找到匹配,返回所有匹配部分的列表3、sub(pattern, re...原创 2019-10-27 19:54:03 · 395 阅读 · 0 评论 -
项目(一)(2):对公司评论利用朴素贝叶斯模型进行分类
1、基于朴素贝叶斯的评论分类(1)评论的预处理由于评论是一句话,所以这里我们采用jieba函数将评论进行分词,包括以下几点处理:①加入专有的词汇,如公司名字、地名、人名、专有词汇(如工资:10k,数字等等)等等让jieba更好的分词②去掉停用词③去掉一些特殊符号(2)朴素贝叶斯的原理wjw_jwj是第i个类别的第j个词,v代表全部的词空间,xijx_{ij}xij代表第i个评论...原创 2019-10-27 19:33:27 · 339 阅读 · 0 评论 -
项目(一)爬取公司的评论信息
1、首先看准网上的评论是用json处理的,所以我们要通过json抓包,其中为了要抓取各个公司的评论,我们先从首页上将各个公司的companyID和conpanyname进行获取,然后在url中限制参数。'http://www.kanzhun.com/gsrPage.json?companyId=194222&companyName=%E4%B8%AD%E6%95%B0%E9%80%9A&...原创 2019-10-27 17:26:19 · 253 阅读 · 1 评论 -
beautifulsoup函数
1、beautifulsoupbeautifulsoup是一个对网页进行解析转换的包,可以将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象例如:html = """<html><head><title>The Dormouse's story</title></head><body><...转载 2019-10-27 17:08:23 · 1042 阅读 · 0 评论 -
降维(一)奇异值分解和svd的应用
1、回顾特征值和特征向量我们首先回顾下特征值和特征向量的定义如下: Ax=λx其中A是一个n×n的实对称矩阵,x是一个n维向量,则我们说λ是矩阵A的一个特征值,而x是矩阵A的特征值λ所对应的特征向量。 求出特征值和特征向量有什么好处呢? 就是我们可以将矩阵A特征分解。如果我们求出了矩阵A的n个特征值λ1≤λ2≤…≤λn,以及这n个特征值所对应的特征向量{w1,w2...转载 2019-10-25 12:37:27 · 146 阅读 · 0 评论 -
中文文本挖掘处理流程
1、 中文文本挖掘预处理特点首先我们看看中文文本挖掘预处理和英文文本挖掘预处理相比的一些特殊点。 首先,中文文本是没有像英文的单词空格那样隔开的,因此不能直接像英文一样可以直接用最简单的空格和标点符号完成分词。所以一般我们需要用分词算法来完成分词,在文本挖掘的分词原理中,我们已经讲到了中文的分词原理,这里就不多说。 第二,中文的编码不是utf8,而是unicode。这样会导致在分词的...转载 2019-10-25 11:16:20 · 1008 阅读 · 1 评论 -
自然语言语言处理(二):文本的向量化
一、词袋模型词袋模型假设我们不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重。而权重与词在文本中出现的频率有关。词袋模型首先会进行分词,在分词之后,通过统计每个词在文本中出现的次数,我们就可以得到该文本基于词的特征,如果将各个文本样本的这些词与对应的词频放在一起,就是我们常说的向量化。向量化完毕后一般也会使用TF-IDF进行特征的权重修正,再将特征进行标准化。总结下词袋模型的三部曲...转载 2019-10-25 10:37:18 · 827 阅读 · 0 评论 -
自然语言处理:文本分词的原理
一、中文分词的基本原理因为中文分词,词语之间往往都是连贯的,所以进行分词的时候往往要采取概率模型。现代分词都是基于统计的分词,而统计的样本内容来自于一些标准的语料库。假如有一个句子:“小明来到荔湾区”,我们期望语料库统计后分词的结果是:“小明/来到/荔湾/区”,而不是“小明/来到/荔/湾区”。那么如何做到这一点呢? 从统计的角度,我们期望"小明/来到/荔湾/区"这个分词后句子出现的概率要...转载 2019-10-25 10:19:34 · 857 阅读 · 0 评论