网络爬虫与网络数据采集
shine10076
这个作者很懒,什么都没留下…
展开
-
python网络爬虫 正则表达式
正则字符串正则字符串:就是任意可以用一系列线性规则构成的字符串。例如:aabbbbb(cc)(d| )将其分解为aa*:a后面跟着的a*表示“重复任意次a,包括0次”,这样就可以保证字母a至少出现一次。bbbbb:没啥特别,5次b(cc)*表示有任意次两个c(可以是0次)(d|):增加一个竖线在表达式里表示“这个或者那个”。表示最后可以跟着与一个d或者空格一个典型的利用正则表达...原创 2018-11-06 20:19:29 · 212 阅读 · 0 评论 -
BeautifulSoup库的标签理解
**1BeautifulSoup库的引用和标签含义**<p class ="title">...</p>:<p>...</p>:标签Tag,一般是成对出现的class="title":属性Attributes,由0个或者多个键值对构成的BeautifulSoup 常用的引用的方式:from bs4 import BeautifulSoup...原创 2018-11-13 17:02:45 · 326 阅读 · 0 评论 -
利用BeautifulSoup库爬取虎扑湖区评论并且制作词云(一)
最近在学python网络爬虫,想爬一些网站练练手,正好楼主是湖人球迷,又是虎扑的忠实用户,于是就想到可以爬取湖区的当天的前几页评论,制作一个词云来分析一下湖区当天的热点话题。爬虫采取的技术路线是request库+BeautifulSoup库。我查看了虎扑网页源代码:<meta http-equiv="Content-Type" content="text/html; charset=ut...原创 2018-11-26 16:06:05 · 1635 阅读 · 1 评论 -
利用BeautifulSoup库爬取虎扑湖区评论并且制作词云(二)
通过之前使用request库和BeautifulSoup库爬取得到了虎扑湖区前几页的帖子评论,接下里就要通过这些评论来制作词云。1利用中文分词库jieba来分词要想从评论中获取话题热度最高的词汇,我们需要将这些评论分成一个个的词汇,中文分词不像英文那般简单,还好jieba为我们提供了这样的功能。首先通过pip安装jieba库,管理员权限打开cmd,输入pip install jiebaji...原创 2018-11-26 19:33:42 · 928 阅读 · 0 评论