qq_33582656-CSDN博客

原创 jieba+pytagcloud 标签云

1.使用pytagcloud自带的get_tag_counts函数,将目标文本进行分割,然后生成标签列表,从而画标签云def mytagcloud(): text = '目标文本' counts = get_tag_counts(text)# 将目标分割 tags = make_tags(counts,maxsize = 36) # 最多切割成的tag的...

2018-03-23 23:11:33 318

原创 gevent+requests下载八零小说

找到一本小说，但是下载需要会员。不想冲会员，所以想爬下来。再次同时发现一个资源很多的网站，八零小说网。所以写了一个爬虫，把书爬下来。首先，打开想下载的小说的章节列表界面：然后获取每章的链接：八零小说网不对请求做限制，可以直接requests获取响应。def parse_list(response): x = etree.HTML(response.text) return [

2017-12-30 20:21:52 532

原创拉勾职位要求抓取

网上的各种爬虫方面的资料我都差不多了解了，感觉不知道该怎么提高，所以想看看人家招聘的职位要求是什么，好有个提高的方向。选择了几个找工作的网站，感觉还是拉勾靠谱点，所以下面是获取拉勾网职位要求的代码。注意：我抓的是任职要求，不是拉勾填充网页时的那个json包的数据，我感觉那个其实没什么用。～.～开始：# 初始化pymongodef __init__(self): self.c

2017-12-23 17:25:04 456

原创 bilibili 根据up主下载其下的投稿

1 下载模块：#!/usr/bin/env pythonimport requestsimport jsonimport timeimport reimport hashlibimport osfrom get_headers import get_ua # 自己的ua池# 通用下载函数def get_content(url,refer = None,params = None):

2017-12-11 19:06:23 2392

原创 you-get 关于bilibili部分的函数

作为一个爬虫爱好者，看到好东西就是想爬爬。you-get 代码阅读我吧原本的分工明确的代码给小作坊化了～def make_xml_url(self,response):# response是目标网页的text内容# 假设目标网页是：https://www.bilibili.com/video/av16806353/?spm_id_from=333.334.chief_recommend.1

2017-12-08 23:40:22 2748

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 jieba+pytagcloud 标签云

原创 gevent+requests下载八零小说

原创 拉勾 职位要求抓取

原创 bilibili 根据up主下载其下的投稿

原创 you-get 关于bilibili部分的函数

空空如也

空空如也

原创拉勾职位要求抓取