- 博客(5)
- 收藏
- 关注
原创 jieba+pytagcloud 标签云
1.使用pytagcloud自带的get_tag_counts函数,将目标文本进行分割,然后生成标签列表,从而画标签云def mytagcloud(): text = '目标文本' counts = get_tag_counts(text)# 将目标分割 tags = make_tags(counts,maxsize = 36) # 最多切割成的tag的...
2018-03-23 23:11:33 318
原创 gevent+requests下载八零小说
找到一本小说,但是下载需要会员。不想冲会员,所以想爬下来。再次同时发现一个资源很多的网站,八零小说网。所以写了一个爬虫,把书爬下来。首先,打开想下载的小说的章节列表界面: 然后获取每章的链接: 八零小说网不对请求做限制,可以直接requests获取响应。def parse_list(response): x = etree.HTML(response.text) return [
2017-12-30 20:21:52 532
原创 拉勾 职位要求抓取
网上的各种爬虫方面的资料我都差不多了解了,感觉不知道该怎么提高,所以想看看人家招聘的职位要求是什么,好有个提高的方向。 选择了几个找工作的网站,感觉还是拉勾靠谱点,所以下面是获取拉勾网职位要求的代码。 注意:我抓的是任职要求,不是拉勾填充网页时的那个json包的数据,我感觉那个其实没什么用。~.~开始:# 初始化pymongodef __init__(self): self.c
2017-12-23 17:25:04 456
原创 bilibili 根据up主下载其下的投稿
1 下载模块:#!/usr/bin/env pythonimport requestsimport jsonimport timeimport reimport hashlibimport osfrom get_headers import get_ua # 自己的ua池# 通用下载函数def get_content(url,refer = None,params = None):
2017-12-11 19:06:23 2392
原创 you-get 关于bilibili部分的函数
作为一个爬虫爱好者,看到好东西就是想爬爬。you-get 代码阅读 我吧原本的分工明确的代码给小作坊化了 ~def make_xml_url(self,response):# response是目标网页的text内容# 假设目标网页是:https://www.bilibili.com/video/av16806353/?spm_id_from=333.334.chief_recommend.1
2017-12-08 23:40:22 2748
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人