爬虫
qq_42847500
这个作者很懒,什么都没留下…
展开
-
python爬虫:爬取百度小姐姐照片
自从学会了爬虫,身体状况一天不如一天,营养都跟不上了,教大家爬取百度性感小姐姐的图片,先看一下效果。项目流程第一步:准备工作工欲善其事,必先利其器pip install requests,该模块用来发送网络请求pycharm编写代码。Chrome浏览器便于解析网页内容。第二步:分析网页想要从某个网站获取数据,首先肯定要熟悉这个网站,知彼知己,百战不殆。使用Chrome浏览器,百度图片搜索“小姐姐”F12进入调试模式依次点击图一的1.Network、2.XHR。然后鼠标鼠标原创 2021-05-06 09:13:19 · 408 阅读 · 0 评论 -
scrapy 入门案例
scrapy 爬虫(糗事百科)第一步准备工作爬取以下内容name age content在H:盘创建爬虫项目# 创建爬虫项目 (项目名qiu_bai)scrapy startproject qiu_bai会自动生成以下目录及文件第二步 切换到spiders目录下# 生成爬虫文件scrapy genspider qiubai www.qius...原创 2018-11-10 16:51:20 · 236 阅读 · 0 评论 -
scrapy 保存mysql, mongodb, json(pipelines.py 的写法)
1,保存数据到mysql数据库第一步 在 settings.py 文件中添加以下代码ITEM_PIPELINES = { 'qiu_bai_mysql.pipelines.QiuBaiMysqlPipeline': 300,}HOST = 'localhost'PORT = 3306USER = 'root'PWD = 'root'DB = 'qiubai'CHARS...原创 2018-11-12 18:59:41 · 233 阅读 · 0 评论 -
requests 用类封装一个基本爬虫(入门,仅供参考)
以百度贴吧为例(爬取lol吧)import requestsclass TiebaSpider: def __init__(self,tieba_name_crawl): """ 初始化必要参数,完成基础设置 """ self.tieba_name = tieba_name_crawl self.url_..原创 2018-12-24 19:26:47 · 557 阅读 · 0 评论 -
mongodb (封装一个类,实现 增、删、改、查 )直接调用即可
利用python魔法方法实现此类import pickleimport zlibfrom datetime import datetime,timedeltafrom pymongo import MongoClientfrom bson.binary import Binaryclass MongoCache(object): """ 数据库缓存 "&am原创 2018-12-24 19:34:35 · 617 阅读 · 0 评论 -
requests 封装一个爬虫类 实现基本的 反爬虫
参考以下代码http://www.runoob.com/html/html5-intro.html以下代码实现了爬取该链接下的自定义链接import requestsfrom fake_useragent import UserAgentfrom retrying import retryimport hashlib #信息摘要 md5 shaimport queue #队列imp...原创 2018-12-24 19:45:52 · 357 阅读 · 0 评论 -
aiohttp、异步、协程、爬虫(入门案例)
aiohttp异步请求提高爬虫效率aiohttp可以理解为一个异步的requests,使用aiohttp发送请求可大大提高爬虫效率。基本语法可参考 https://www.jianshu.com/p/63d9741b0beeasync定义一个协程improt async# 定义该函数为协程async def test(): passrequests发送请求impor...原创 2019-07-12 11:45:56 · 503 阅读 · 0 评论 -
使用requests、queue(队列)、threading 实现一个多线程爬虫
使用requests爬取糗事百科(多线程版)使用多线程可以条爬虫效率注意在从队列中取数据并完成操作之后要加上task_down()方法import requestsfrom lxml import etreeimport threadingfrom queue import Queueclass QiubaiSpider: def __init__(self): ...原创 2019-07-12 13:03:08 · 741 阅读 · 0 评论