爬虫
文章平均质量分 71
GZ_Wiilian
这个作者很懒,什么都没留下…
展开
-
用python3爬取豆瓣电影数据
import urllibfrom urllib import requestimport json#伪造浏览头headers = { "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.34...原创 2018-08-13 21:24:21 · 989 阅读 · 0 评论 -
爬取某里的社招网python岗位及全部岗位
import urllibfrom urllib import request,parseimport jsonheaders={"User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106...原创 2018-08-13 22:27:33 · 441 阅读 · 0 评论 -
爬取tengxun招聘并存入到mysql中
import requestsimport refrom bs4 import BeautifulSoupimport mathheaders = { "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrom...原创 2018-08-16 09:11:42 · 316 阅读 · 0 评论 -
用scrapy爬取妹纸网站图片,并储存在本地
# -*- coding: utf-8 -*-爬虫入口import scrapyfrom scrapypc.items import ScrapypcItemclass AppSpider(scrapy.Spider): name = 'app' allowed_domains = ['meizitu.com'] # allowed_domains = [] ...原创 2018-08-22 09:04:56 · 413 阅读 · 0 评论 -
爬取奔腾官网汽车经销商(上)
以前曾经想爬取一些汽车官网,了解一下他们在中国的店的情况,分布。然后这个网站之前爬取过,不过没成功,最近重新爬取了一下,成功了。这个网站我要的数据主要是用json储存的,需要先获得省份id,再拼接链接获取城市id,再从城市id拼接的链接获取我想要的内容。之后会做一个可视化。import requestsimport lxmlfrom lxml import etreeimport jso...原创 2018-08-22 09:13:05 · 727 阅读 · 0 评论 -
爬取起点小说并存入数据库
最终效果如下:······················主程序:·······································# -*- coding: utf-8 -*-import scrapyimport requestsimport jsonfrom qidian.items import QidianItemclass Myqidia...原创 2018-09-20 20:44:08 · 5316 阅读 · 4 评论