自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 jieba+pytagcloud 标签云

1.使用pytagcloud自带的get_tag_counts函数,将目标文本进行分割,然后生成标签列表,从而画标签云def mytagcloud(): text = '目标文本' counts = get_tag_counts(text)# 将目标分割 tags = make_tags(counts,maxsize = 36) # 最多切割成的tag的...

2018-03-23 23:11:33 318

原创 gevent+requests下载八零小说

找到一本小说,但是下载需要会员。不想冲会员,所以想爬下来。再次同时发现一个资源很多的网站,八零小说网。所以写了一个爬虫,把书爬下来。首先,打开想下载的小说的章节列表界面: 然后获取每章的链接: 八零小说网不对请求做限制,可以直接requests获取响应。def parse_list(response): x = etree.HTML(response.text) return [

2017-12-30 20:21:52 532

原创 拉勾 职位要求抓取

网上的各种爬虫方面的资料我都差不多了解了,感觉不知道该怎么提高,所以想看看人家招聘的职位要求是什么,好有个提高的方向。 选择了几个找工作的网站,感觉还是拉勾靠谱点,所以下面是获取拉勾网职位要求的代码。 注意:我抓的是任职要求,不是拉勾填充网页时的那个json包的数据,我感觉那个其实没什么用。~.~开始:# 初始化pymongodef __init__(self): self.c

2017-12-23 17:25:04 456

原创 bilibili 根据up主下载其下的投稿

1 下载模块:#!/usr/bin/env pythonimport requestsimport jsonimport timeimport reimport hashlibimport osfrom get_headers import get_ua # 自己的ua池# 通用下载函数def get_content(url,refer = None,params = None):

2017-12-11 19:06:23 2392

原创 you-get 关于bilibili部分的函数

作为一个爬虫爱好者,看到好东西就是想爬爬。you-get 代码阅读 我吧原本的分工明确的代码给小作坊化了 ~def make_xml_url(self,response):# response是目标网页的text内容# 假设目标网页是:https://www.bilibili.com/video/av16806353/?spm_id_from=333.334.chief_recommend.1

2017-12-08 23:40:22 2748

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除