![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
习惯了一个人面对所有
这个作者很懒,什么都没留下…
展开
-
使用scrapy爬取古诗文网的前十页数据
内容简介使用scrapy爬取古诗文网的前十页数据创建scrapy框架设置scrapy项目写爬虫类设置爬取的内容保存数据标题设置多页爬取(在gsww_spider.py里面设置)使用scrapy爬取古诗文网的前十页数据创建scrapy框架使用cmd创建一个爬虫项目scrapy startproject gsww #创建新项目然后进入目录中,创建spidercd gsww scrapy genspider gsww_spider www.gushiwen.cn设置scrapy项目在s原创 2020-10-07 12:37:48 · 1295 阅读 · 0 评论 -
12306抢票一(登录)
12306抢票一(登录)找到登录的页面,由于账号密码登录比较麻烦就直接扫码登录所以要先找到登录页面的url,利用selenium进行登录。在实战中一般要先把框架给搭好,好后面添加代码。为了代码得简洁,可读性较高,所以整个过程在一个类中实现,类中又定义了不同的函数来实现不同的功能搭框架:有一个执行的入口,有一个主函数可以调用定义的类。class TrainSpider(object): def __init__(self, *args, **kwargs) pass def run(self原创 2020-09-22 13:23:20 · 427 阅读 · 0 评论 -
多线程爬取段子
使用多线程爬取段子请求网页响应获取源码由于使用多线程代码比较多,所以定义一个采集类class CrawlThread(threading.Thread): def __init__(self, name, url_queue, data_queue): super(CrawlThread, self).__init__() self.name = name self.url_queue = url_queue self.data_原创 2020-09-20 22:56:33 · 170 阅读 · 0 评论 -
多线程爬取王者荣耀游戏壁纸
多线程爬取王者荣耀游戏壁纸https://pvp.qq.com/web201605/wallpaper.shtml王者荣耀游戏壁纸的下载页面右键检查但是在网页源代码里找不到壁纸的链接这个文件是还需要进行一个解码操作,再提取壁纸的下载链接进行多线程爬虫时,把生产者和消费者各自创建一个类这个类要继承threading.Thread类还要写入run方法,类中需要传入参数需要重写父类的__init__()方法使用队列需要定义用到的队列1.定义生产者类class Producer原创 2020-09-18 17:37:06 · 851 阅读 · 0 评论 -
使用navicate11连接mysql8报错的解决方法
使用navicate11连接mysql8报错的解决方法使用navicate11连接mysql8,报错1251的错误1251- Client does not support authentication protocol requested by server consider upgrading MySQL client网上查找原因发现是mysql8 之前的版本中加密规则是mysql_native_password,而在mysql8之后,加密规则是caching_sha2_password, 解决原创 2020-09-16 15:54:55 · 1395 阅读 · 0 评论 -
爬取快代理的ip地址
爬取快代理的ip地址导入必备的库包import requestsfrom bs4 import BeautifulSoup准备url地址url = 'https://www.kuaidaili.com/free/inha/{}/'请求网页响应 data = requests.get(url, headers=headers)使用Beautifulsoup解析网页并提取内容data = requests.get(url, headers=headers)html =原创 2020-09-13 18:31:24 · 420 阅读 · 0 评论 -
scrapy 小项目——爬取豆瓣排行榜250
scrapy startproject douban #创建一个新的项目scrapy genspider Top250 douban.com #创建爬虫打开items.py,在DoubanItem中添加属性原创 2020-06-23 11:23:28 · 233 阅读 · 0 评论 -
爬取博客的发帖信息保存在csv文件中
使用xpath爬取我的博客的发帖信息并保存在csv文件中#! /usr/bin/env python# -*- coding:utf8 -*-import requestsimport csvfrom lxml import etreeurl = 'https://blog.csdn.net/qiaoenshi'headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWeb原创 2020-06-11 12:38:56 · 228 阅读 · 1 评论 -
爬虫偷懒小插件——Katalon Recorder
简介Katalon Recorder——火狐浏览器中的小插件下载插件使用插件Katalon Recorder——火狐浏览器中的小插件此处附上一个莫烦python的教学视频有操作介绍:[https://morvanzhou.github.io/tutorials/data-manipulation/scraping/5-01-selenium/下载插件打开火狐浏览器如下图,点击附加组件然后,进入插件页面下载安装即可使用插件打开插件点击Record,开始录制录制完成后,点击stop原创 2020-06-06 19:56:51 · 965 阅读 · 0 评论 -
爬取百度贴吧发帖信息并保存到scv文件中
爬取百度贴吧发帖信息并保存到scv文件中#爬取百度贴吧的发贴信息(https://tieba.baidu.com/f?kw=%E7%88%AC%E8%99%AB&ie=utf-8&pn=50),并通过正则表达式解析数据,包括发帖标题、发帖人、发帖时间,保存到csv文件。#导入需要的模块import requestsimport reimport csvurl="http...原创 2020-04-18 17:09:23 · 782 阅读 · 1 评论