![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
软件测试进阶中
平安喜乐
展开
-
使用selenium爬取斗鱼直播数据
分析斗鱼直播首页https://www.douyu.com/directory/all 使用selenium来实现跳转页面,定位到跳转页面位置。 拿到页面后通过xpath提取想要的数据进行分析。 保存数据 # -*- coding:utf-8 -*-from selenium import webdriverfrom selenium.webdriver.chrome.optio...原创 2018-11-30 10:16:05 · 1124 阅读 · 0 评论 -
使用正则表达式爬取猫眼TOP100
使用正则表达式爬取猫眼TOP100一、正则表达式: 正则表达式用来匹配HTML标签有一个最大的优势,就是速度快。但是正则表达式的写法较为复杂,而且在页面结构发生改变的时候就会出问题。正则表达式通常用来过滤数据,提取我们想要的数据。 对整合的页面数据进行分析,得到数据排名、电影封面、电影名字、主演、上映时间以及分数。 在返回的页面中找到需要的代码块'...原创 2018-11-27 17:31:23 · 371 阅读 · 0 评论 -
使用xpath爬取糗事百科的数据
使用xpath爬取糗事百科的数据 from lxml import etree#提取页面数据html_data= etree.HTML(html)list_data= html_data.xpath('.//div[@id="content-left"]/div') 代码详情# -*- coding:utf-8 -*-import requestsfrom lx...原创 2018-11-27 18:35:44 · 523 阅读 · 0 评论 -
中国天气网数据爬取
爬取中国天气网数据:目标数据:地区名 最低气温,最高气温 存入cvs表中 知识点一、开启多线程class Queue.Queue(maxsize) FIFO 先进先出Queue.qsize() 返回队列的大小 Queue.empty() 如果队列为空,返回True,反之False Queue.full() 如果队列满了,返回True,反之False Queue....原创 2018-11-27 21:13:56 · 3139 阅读 · 0 评论 -
xpath不能正常匹配
记录一下今天掉的坑。。。本来再写爬虫的时候发现xpath能在浏览器里正常使用,但是放到我的项目里就是一个空列表。弄了我将近一个小时。解决方案有两种:第一种就是携带cookie值。self.headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537....原创 2019-03-11 16:16:03 · 1986 阅读 · 2 评论 -
避坑--pymysql.err.ProgrammingError: (1064, "You have an error in your SQL syntax; check the manual tha
记录昨天遇到的问题以及解决方案。 昨天再弄爬虫爬取数据想存入数据库的时候,突然抛出pymysql.err.ProgrammingError: (1064,******)明明MySQL语句是对的,但是怎么都运行不成功。错误提示就是他:pymysql.err.ProgrammingError: (1064, "You have an error in your SQL synt...原创 2019-03-13 12:40:13 · 26353 阅读 · 9 评论 -
避坑--python3往mysql中插入datetime类型的数据
昨天在这个上面找了好久的错,嘤嘤嘤~很多时候我们在爬取数据存储的时候都需要将当前时间作为一个依据,在python里面没有时间类型可以直接拿来就用的。我们只需要在存储之前将时间类型稍作修饰就行。datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")如:#插入产品信息 insert_good_sql = """ ...原创 2019-03-13 12:47:23 · 6024 阅读 · 0 评论 -
爬虫爬取图片并存储到数据库
# 下载图片并保存图片 r = requests.get(data_dict['img_src']) with open('F:\python_project\kerastase\{}.jpg'.format(data_dict['good_name']), 'wb') as f: f.write(r.content) ...原创 2019-03-13 12:53:14 · 2905 阅读 · 0 评论