爬虫
文章平均质量分 74
零zero度
这个作者很懒,什么都没留下…
展开
-
python爬虫第一个,爬取斗图啦,程序猿斗图从来没输过.
最近几天博客一直没有跟新,本人也对爬虫有深深的兴趣所以就花了一天时间,自学了一下,然后实战爬取斗图啦.话不多说直接上码,相信小白也看的懂,import requestsimport reimport urllib.request#定义目标网站urlurl='http://www.doutula.com/photo/list/?page='# #编写模拟浏览器获取headers =...原创 2018-11-30 18:41:50 · 1348 阅读 · 0 评论 -
python爬虫从入门到放弃 二(爬取小说网站)
本期在闲暇之余用BeautifulSoup爬取了一个小说网站,大家可以学习一下,写的注释还算细,如果不懂的欢迎在下面评论区问我 import requests#引入requests from bs4 import BeautifulSoup url='http://www.seputu.com/'#访问的网页 r=requests.get(url).text#用req...原创 2018-12-05 16:10:27 · 719 阅读 · 0 评论 -
爬虫入门到放弃(三) 爬取格言网并储存到数据库
代码送上,请各位点下关注,本人也会持续更新各种技术# -*- coding:utf-8 -*-from bs4 import BeautifulSoupimport requestsimport pymysql#定义目标网站urlurl='https://www.geyanw.com/'# #编写模拟浏览器获取headers = {'User-Agent':'Mozilla/5.0...原创 2018-12-19 09:18:29 · 396 阅读 · 0 评论 -
爬虫从入门到放弃(四),爬取你心目中的女神(校花网)
本次用scrapy框架来写一个爬虫,首先那,我们要在终端创建一个scrapy项目.命令是:scrapy startproject +项目名字第二步,我们cd进文件夹,命令是 cd 文件名第三步,我们要创建一个爬虫 命令是:scrapy genspider +爬虫的名字 +初始化URL,这里的爬虫名字是你自己定义的,还有就是初始化URL,记得要去掉前面的http协议,如果你添加的话,你可以在你...原创 2018-12-25 09:35:08 · 458 阅读 · 0 评论 -
python 爬虫入门到放弃(五)scrapy设置代理池和ua代理
scrapy设置代理池知识点回顾scrapy遇到了10060或者ip被封禁的问题scrapy设置ip代理和ua代理接下来我们要修改settings文件修改中间件文件middlewares最后在settings文件中修改总结知识点回顾首先那我们先回顾一下scrapy项目的创立,命令是:` scrapy startproject +项目名字第二步那我们要进入项目: ...原创 2019-01-08 11:35:28 · 1574 阅读 · 2 评论