荆棘谷三季稻
码龄12年
关注
提问 私信
  • 博客:28,268
    28,268
    总访问量
  • 24
    原创
  • 901,268
    排名
  • 13
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2012-10-25
博客简介:

XiaoDao147258369的博客

查看详细资料
个人成就
  • 获得15次点赞
  • 内容获得9次评论
  • 获得93次收藏
  • 代码片获得425次分享
创作历程
  • 24篇
    2021年
成就勋章
TA的专栏
  • 爬虫-Scrapy
    11篇
  • 爬虫-requests
    4篇
  • 爬虫-python
    2篇
  • 爬虫-数据存储
    3篇
  • 爬虫-Selenium
    2篇
  • 爬虫-APP
    1篇
创作活动更多

HarmonyOS开发者社区有奖征文来啦!

用文字记录下您与HarmonyOS的故事。参与活动,还有机会赢奖,快来加入我们吧!

0人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

爬虫-Scrapy(四) pipeline将数据存储至mysql库

1. mysql库环境准备a.服务器,准备一台linux服务器,可以自己机器上装个虚拟化软件,也可以连公司的闲置服务器或者租赁云服务器,不贵的。b.mysql,安装的5.7,官网应该有8了,但5.7还是最普遍的版本。c.Navicat for Mysql,非常好用的mysql客户端工具。安装过程省略,安装完成后新建一个库,起名spider,然后在新建一个表,起名book,准备接收数据用。建表脚本:CREATE TABLE book( id INT PRIMARY KEY AUTO_INCREM
原创
发布博客 2021.03.06 ·
1031 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

爬虫-Scrapy(三) 翻页的实现

1. 翻页的实现上一篇实现了单页的爬取,再加3行代码就可以实现翻页了。基本思路是查找页面中‘下一页’按钮对应的href地址,然后回调parse方法实现循环,直至找不到’下一页’的链接为止。QiubaiSpider.pyimport scrapyimport refrom scpy1.items import Scpy1Itemclass Qiubai1Spider(scrapy.Spider): name = 'qiubai1' allowed_domains = ['qiu
原创
发布博客 2021.03.06 ·
3095 阅读 ·
4 点赞 ·
0 评论 ·
19 收藏

爬虫-Scrapy (十一) 分布式爬虫 scrapy 转 scrapy-redis 详解

安装scrapy-redis
原创
发布博客 2021.03.01 ·
386 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

爬虫-requests库(四)对接打码平台识别验证码

爬虫-requests库(四)对接打码平台识别验证码
原创
发布博客 2021.02.25 ·
2774 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

爬虫-requests库(三)post请求提交data的使用 — 在线百度翻译(含sign破解)

爬虫-requests库(三)post请求提交data的使用 — 在线百度翻译(含sign破解)
原创
发布博客 2021.02.23 ·
842 阅读 ·
2 点赞 ·
1 评论 ·
5 收藏

爬虫-requests库(二)get请求参数的使用 —搜狗搜索后爬取搜索结果

之前写过一个用urllib.request 爬取百度搜索后结果的小文章百度搜索关键词后爬取搜索结果这次用requests库实现下搜狗搜索后查询,代码import requestsfrom fake_useragent import UserAgent#定义urlurl = "https://www.sogou.com/web"#设置request headerua = UserAgent()headers = { "User-Agent":ua.random}#交互输入
原创
发布博客 2021.02.22 ·
827 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

爬虫-requests(一) 初识requests

简单示例import requests#定义urlurl = 'https://www.sohu.com'#发起请求,返回相应对象response = requests.get(url=url)#数据存储with open('./file/sohu.html','w',encoding='utf-8') as fw: fw.write(response.text)#提示完成print("爬取完成!")...
原创
发布博客 2021.02.21 ·
185 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

爬虫-数据存储(三)redis在windows系统中的安装

1.下载github 下载链接,下载最新的 3.2.100这个版本https://github.com/microsoftarchive/redis/releases/tag/win-3.2.100选择msi安装包。2. 安装安装简单,基本一路next,一些可选项按默认的勾选就很好。比如这个安装路径自动添加到环境变量端口号,设置防火墙例外。内存限制,这个默认是不限制,但如果怕不小心占用过高,也可以设置个限制,比如100M。安装完成。3.set ,get 测试安装完成后服务自动就启动了
原创
发布博客 2021.02.12 ·
201 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

爬虫-Scrapy(二) 爬取糗百笑话-单页

1. Scrapy 设置文件修改配置文件就是项目根路径下的 settings,py ,改下面的配置信息a.遵循人机协议设置成false,否则基本啥也爬不到# Obey robots.txt rulesROBOTSTXT_OBEY = Falseb. 设置ua,不然大部分网址是爬不到的# Crawl responsibly by identifying yourself (and your website) on the user-agentUSER_AGENT = 'Mozilla/5.0
原创
发布博客 2021.02.12 ·
463 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

爬虫-Scrapy (十) 搭建ip代理池

每一个爬虫工作者都应该有一个ip池,就像一、找到一个ip代理提供商提供ip代理的服务商很多,基本都会先提供些不稳定的免费ip,然后引导你消费,我们这次二、抓取ip三、过滤有效ip四、入库1、从代理网站(如:西刺代理、快代理、云代理、无忧代理)爬取代理IP;2、验证代理IP的可用性(使用代理IP去请求指定URL,根据响应验证代理IP是否生效);3、抓取在《Python爬虫代理池搭建》一文中我们已经使用Python的 requests 模块简单实现了一个IP代理池搭建,但是爬取速度较慢。由于西
原创
发布博客 2021.02.11 ·
3465 阅读 ·
0 点赞 ·
2 评论 ·
11 收藏

爬虫-Scrapy (五) 爬取美女图片

Scrapy 框架的piplelines下提供了现在图片和视频的类,这使得我们将页面中的图片下载到本地非常方便。1.寻找目标百度搜索‘美女’,就可以找到很多有美女图片的网站,这里不贴地址了,反正很多。我找个是这样个的一个网站我们按F12看下页面源码结构非常清晰,我们的目标就是爬取页面中的图片,并按主题保存到本地,动手。2.item定义2个属性,主题名称和图片地址列表。图片Itemclass ImageItem(scrapy.Item): topic_name = scrapy.F
原创
发布博客 2021.02.03 ·
442 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

爬虫-数据存储(二) mongdb的基本操作

1.基本概念数据库(database):是一个仓库,仓库中可以存放集合集合(collections):类似数组,在集合中可以存放文档文档(document):文档数据库的最小单位,我们存储和操作的内容全部是文档2.服务级指令进入mongdb shell : mongo退出mongdb shell: exit3.库级指令显示数据库: show dbs创建/切换数据库: use databasename查看数据库列表:show dbs显示当前使用的数据库名称::db显示当前使用
原创
发布博客 2021.02.03 ·
558 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

爬虫-Scrapy(九)Scrapy使用代理

还是这张图,代理的设置就卸载这个下载的中间件 Downloader Middlewares。开搞1.创建一个新项目:创建一个项目>scrapy startproject s0127 ;进入项目> cd scrapy ;创建一个爬虫文件>scrapy genspider Proxy baidu.com2. 修改配置文件,启动用下载中间件# Enable or disable downloader middlewares# See https://docs.scra
原创
发布博客 2021.01.28 ·
506 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

爬虫-Scrapy(八)Scrapy快读提取超链接

前面写过用xpath 方式定位response对象中我们所需要的超链接地址,但如果超链接过多且位置规律性差就不太方便了,现在介绍一种快速提取和过滤超链接地址的方法1.明确需求查看豆瓣图书中首页中所有图书的超链接,先看首页长这样的然后随便点击一本数,进入图书的详情页,是这样的此时我们查看下浏览器的url地址,是https://book.douban.com/subject/35166573/?icn=index-latestbook-subject,这个就是我们要抓取的地址。2. 创建爬虫可以
原创
发布博客 2021.01.27 ·
976 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

爬虫-Scrapy(一) Scrapy 安装和创建项目

windows 下 Scrapy 的安装用pip 安装,网上的教程非常多,这里就不详细写了。注意安装过程中可能因为缺少依赖安装失败,这个时候有些教程说必须安装完整版的visual stdio,这玩意非常大,其实不需要,只需要安装合适版本的twisted就可以了,注意不要被误导了。2.Scrapy 框架运行流程对,就是下面这种图,very very famous ,基本讲到的Scrapy都会提及,讲的概念都大同小异,后面使用中慢慢说吧。估计找工作面试的话很容易被问到吧。3.Scrapy 创建.
原创
发布博客 2021.01.27 ·
1068 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

爬虫-selenium(二)微博账号登录淘宝

1. selenium 操控chrome浏览器上一篇写的是操作火狐浏览器,今天切换成谷歌的chrome浏览器,对开发者更友好些,插件也多。第一步是下载对应的驱动程序,上一篇中有链接,但谷歌不翻墙还没办法访问,又找到了一个可以下载的地址 http://chromedriver.storage.googleapis.com/index.html 找到操作系统对应和浏览器对应的版本下载即可。下载完成后解压,是个名叫chromedriver.exe的文件,仍旧给他放到一个配置了环境变量的路径,比如python
原创
发布博客 2021.01.27 ·
705 阅读 ·
1 点赞 ·
1 评论 ·
3 收藏

爬虫-python(二)初识urllib.request

继续写。上一篇写了最简单的一个爬虫,这次我们改下url地址,换成糗百,修改完的代码如下:from urllib.request import urlopen# 发送请求,获取服务器给的响应url = "https://www.qiushibaike.com/"response = urlopen(url)# 读取结果,无法正常显示中文html = response.read()# 进行解码操作,转为utf-8html_decode = html.decode()# 打印结果p
原创
发布博客 2021.01.25 ·
256 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

爬虫-python(三) 百度搜索关键词后爬取搜索结果

9点49,老婆孩子都睡着了, 继续搞。第1篇写了访问百度并打印页面源码,似乎没什么实际意义,这次弄个有点用的,就是百度中输入指定关键词后搜索,然后获取搜索结果第一页(翻页后面会陆续写)。比如我们输入‘博客园’,下面是查询结果(为啥写博客园不写CSDN呢,因为最早是博客是在博客园里写的,现在自己转发到CSDN,不改了):这个时候我们看下浏览器中url地址 ,大概是这个样子的好老长,我们去除掉一些看不懂的部分,只保留ie 和wd 这2个参数试下能否正常访问可以的访问,现在我们把这个url复制到 代
原创
发布博客 2021.01.24 ·
6831 阅读 ·
7 点赞 ·
1 评论 ·
37 收藏

爬虫-selenium(一)Selenium的安装和使用

Selenium作为浏览器操控工具,在自动化测试和爬虫方面都应用广泛。这篇先说下安装和基本使用。1. python 安装 selenium 库我本地的python 版本是 3.9 ,用pip 安装下 seleniumpip install selenium安装完成后,我们进入python的安装路径下\Lib\site-packages ,看下安装结果,安装的是 3.141.0 版本。2. WebDrivers 的安装selenium 不能直接操作浏览器,需要一个驱动,这里官方文档提供了4种
原创
发布博客 2021.01.23 ·
702 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

爬虫-python(一) 初识爬虫

开始写爬虫随笔,总结和分享技术,也希望对未来换工作有帮助。 本系列随笔遵循两个原则,一是简洁,二是亲测可用。开干。1. 环境准备python 3.9.0IDE:PyCharm两者都可以从官网下载,安装简单,不再累述。2. 最简单的爬虫爬虫最基本的流程是 发送请求(get/post)-- 获取响应结果 – 解析响应结果(xpath,css)-- 持久化存储(文件、库)。打开PyCharm,选择File-NewProject ,新建1个项目,注意第一次使用的时候没有解释器,点击解释器右侧齿轮标志选
原创
发布博客 2021.01.21 ·
199 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多