Python数据分析 读书笔记

其实就是nltk使用说明书

>>> import nltk
>>> nltk.download()
>>> from nltk.book import *

text1.concordance(“monstrous”)

text1.similar(“monstrous”) 。还有哪些词出现在相似的上下文中?

函数common_contexts允许我们研究两个或两个以上的词共同的上下文,如monstro
us和very。我们必须用方括号和圆括号把这些词括起来,中间用逗号分割。

text4.dispersion_plot([“citizens”, “democracy”, “freedom”, “duties”, “America”])
以判断词在文本中的位置:从文本开头算起在它前面有多少词。这个位置信息
可以用离散图表示。每一个竖线代表一个单词,每一行代表整个文本

使用
函数len 获取长度

:set(text3)获得text3 的词汇表
用sorted()包裹起Python 表达式set(text3)��,我们得到一个词汇项的排序表,
len(text3) / len(set(text3)) len(text3) / len(set(text3))多少次

text3.count(“smote”) 。计数一个词在文本中出现的次

定义一个python函数 来重复执行
python存储句子的方法 list
sentence1.append(“word”) z 追加
text4[173] 索引 text4.index(‘awaken’) text5[16715:16735] ,m:n 表示元素m…n-1 索引从零开始

我们可以把词用链表连接起来组成单个字符串,或者把字符串分割成一个链表,如下面
所示:

>>> ' '.join(['Monty', 'Python'])
'Monty Python'
>>> 'Monty Python'.split()
['Monty', 'Python']

使用FreqDist 寻找《白鲸记》中最常见的50 个词。尝试下面的例子,然
后阅读接下来的解释。

>>> fdist1 = FreqDist(text1) ��
>>> fdist1 ��
<FreqDist with 260819 outcomes>
>>> vocabulary1 = fdist1.keys() ��
>>> vocabulary1[:50] ④
[',', 'the', '.', 'of', 'and', 'a', 'to', ';', 'in', 'that', "'", '-','his', 'it', 'I', 's', 'is', 'he', 'with', 'was',
'as', '"', 'all', 'for','this', '!', 'at', 'by', 'but', 'not', '--', 'him', 'from', 'be', 'on','so', 'whale', 'one',
'you', 'had', 'have', 'there', 'But', 'or', 'were','now', 'which', '?', 'me', 'like']
>>> fdist1['whale']
906
>>> 

fdist1.hapaxes() 只出现过一次的词语

找出文本词汇表长度中超过15 个字符的词

 >>> V = set(text1)
>>> long_words = [w for w in V if len(w) > 15] 表示在V中 长度大于15的词的集合
>>> sorted(long_words) 

是聊天语料库中所有长度超过
7 个字符出现次数超过7 次的词:

>>> fdist5 = FreqDist(text5)
>>> sorted([w for w in set(text5) if len(w) > 7 and fdist5[w] > 7])

! 中文 先 分词 (e.g. 结巴分词) 然后在用nltk来处理
分词包分词-> 文本变成长数组->匹配词典?-> nltk统计词频 找出频率最高的那些词
Python 解决中文编码问题基本可以用以下逻辑:
utf8(输入) ——> unicode(处理) ——> (输出)utf8
由于处理的一般为txt 文档,所以最简单的方法,是把txt 文档另存为utf-8 编码,然后使用Python 处理的时候解码为unicode(sometexts.decode(‘utf8’)),输出结果回txt 的时候再编码成utf8(直接用str() 函数就可以了)

Jieba:可以用来做分词,词性标注,TextRank https://github.com/fxsjy/jieba
HanLP:分词,命名实体识别,依存句法分析,还有FudanNLP,NLPIR
我们使用的是ansj分词,fnlp句法分析,用logistic做情感分类。以前也用过stanford的分词和分析,但是结果还是fnlp效果好。NLTK确实不怎么好用

collocations() 寻找 双连词 搭配

fdist = FreqDist([len(w) for w in text1]) 文本中词长出现频率
fdist.keys() fdist.itemss

len(set([word.lower() for word in text1 if word.isalpha()]))
16948 忽略大小写 和数字标点 的统计

爬虫 

你并不清楚对方是如何识别你的爬虫,因此只能使用一些主要的伪装技术来进行推测,将Agent字段设置为一组主流浏览器的字段,另外Referer字段设置为空或设置为首页地址试试!我估计对方未必是识别出你是爬虫,否则直接中断连接得了,可能是爬到有访问控制保护的页面了!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值