爬虫
文章平均质量分 74
零zero度
这个作者很懒,什么都没留下…
展开
-
python爬虫第一个,爬取斗图啦,程序猿斗图从来没输过.
最近几天博客一直没有跟新,本人也对爬虫有深深的兴趣所以就花了一天时间,自学了一下,然后实战爬取斗图啦. 话不多说直接上码,相信小白也看的懂, import requests import re import urllib.request #定义目标网站url url='http://www.doutula.com/photo/list/?page=' # #编写模拟浏览器获取 headers =...原创 2018-11-30 18:41:50 · 1369 阅读 · 0 评论 -
python爬虫从入门到放弃 二(爬取小说网站)
本期在闲暇之余用BeautifulSoup爬取了一个小说网站,大家可以学习一下,写的注释还算细,如果不懂的欢迎在下面评论区问我 import requests#引入requests from bs4 import BeautifulSoup url='http://www.seputu.com/'#访问的网页 r=requests.get(url).text#用req...原创 2018-12-05 16:10:27 · 744 阅读 · 0 评论 -
爬虫入门到放弃(三) 爬取格言网并储存到数据库
代码送上,请各位点下关注,本人也会持续更新各种技术 # -*- coding:utf-8 -*- from bs4 import BeautifulSoup import requests import pymysql #定义目标网站url url='https://www.geyanw.com/' # #编写模拟浏览器获取 headers = {'User-Agent':'Mozilla/5.0...原创 2018-12-19 09:18:29 · 450 阅读 · 0 评论 -
爬虫从入门到放弃(四),爬取你心目中的女神(校花网)
本次用scrapy框架来写一个爬虫,首先那,我们要在终端创建一个scrapy项目. 命令是:scrapy startproject +项目名字 第二步,我们cd进文件夹,命令是 cd 文件名 第三步,我们要创建一个爬虫 命令是:scrapy genspider +爬虫的名字 +初始化URL,这里的爬虫名字是你自己定义的,还有就是初始化URL,记得要去掉前面的http协议,如果你添加的话,你可以在你...原创 2018-12-25 09:35:08 · 497 阅读 · 0 评论 -
python 爬虫入门到放弃(五)scrapy设置代理池和ua代理
scrapy设置代理池知识点回顾scrapy遇到了10060或者ip被封禁的问题scrapy设置ip代理和ua代理接下来我们要修改settings文件修改中间件文件middlewares最后在settings文件中修改总结 知识点回顾 首先那我们先回顾一下scrapy项目的创立,命令是:` scrapy startproject +项目名字 第二步那我们要进入项目: ...原创 2019-01-08 11:35:28 · 1798 阅读 · 2 评论