![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
忆雨星辰
这个作者很懒,什么都没留下…
展开
-
python线程等待模板
自己写的一个比较好用的线程等待代码模板,python3环境下 我的应用场景:在拨号爬虫的时候,重新拨号之后数据库的连接会出现异常,所以需要用到 简介:A是爬虫线程,B是写控制爬虫线程什么时候停止,然后运行一些其他脚本的线程代码中主要运行逻辑我用的sleep代替 import random import time import threading class A(threading.Thread): def __init__(self,thread_id,event): super(原创 2020-12-16 16:07:19 · 197 阅读 · 0 评论 -
综合使用python爬虫技术,selenium模块动态抓取“视觉中国”网站上的图片的url
一、 导入模块 import time from selenium import webdriver from lxml import etree 本文章纯粹用来练手,于是我使用了etree,其实光使用find_elements…的方法也可以 二、开始干活 1.首先创建driver对象 driver=webdriver.Chrome() 2.打开网站 driver.get("https://ww...原创 2018-10-28 15:35:24 · 1394 阅读 · 0 评论 -
使用爬虫python中的selenium模块抓取某小说网站某一章节中的JavaScript动态加载的内容
使用selenium抓取小说内容 创建一个browser对象,用chrome启动 from selenium import webdriver 直接启动会报错“ Message: ‘chromedriver’ executable needs to be in PATH” 使用这个的前提要安装一个chromedriver.exe放在项目下,去网上找与你的chrome对应的版本 browser=...原创 2018-10-23 21:43:35 · 961 阅读 · 0 评论 -
scrapy创建一个简单的不依靠项目的爬虫文件
首先创建普通py文件 内容如下: import scrapy class Demo(scrapy.Spider): name="demo" def start_requests(self): urls = ['https://www.qidian.com', "https://www.baidu....原创 2018-10-29 21:10:39 · 252 阅读 · 0 评论 -
使用selenium爬取淘宝页面中的商品信息
一、分析 淘宝页面中的商品都是用js动态加载的,所以使用selenium模块抓取内容 1.首先分析如何用关键字搜索内容 2.打开浏览器 3.然后分析页面结构,抓取信息 4.其次获取商品具体信息的话需要打开二级页面 5.需要找到下一页的按钮用于模拟点击下一页,从而获取所有页面的相关信息 二、开始操作 1.首先分析如何用关键字搜索内容 注意到页面的规律为https://s.taobao.com/sea...原创 2018-10-31 21:14:46 · 2757 阅读 · 0 评论 -
python综合使用requests模块,redis,mysql分布式爬取csdn博客,并存储到mysql数据库中
一. 准备工作:创建一个模块master包含spider文件,再创建一个模块slaver包含spider.py文件和models.py文件 master下的spider.py文件用于发布任务,即将需要爬取的url地址存放在redis中,slaver中的spider文件用于分布式提取redis中的url并且解析内容存放在mysql数据库中 master\spider.py slaver\spid...原创 2018-10-27 14:44:41 · 470 阅读 · 0 评论 -
使用scrapy爬取小说网站的所有小说内容,并且使用简易的flask框架显示所有书和章节与内容
一、爬小说 scrapy startproject demo cd demo scrapy genspider novel 设计mysql表结构如下: 1.存放书的表 create table novels_item( novel_id int auto_increment primary key, novel_name varchar(20)); 2.存放章节和章节内容的表 create t...原创 2018-11-02 20:16:18 · 1608 阅读 · 3 评论