Python爬虫开发
影雀
砥砺前行,为梦前行!
展开
-
python â\x89¥ 95%编码错误
1.遇到的问题: 大于等号≥编码错误:â\x89¥ 95%(正确≥ 95%)解决方法:对源代码使用编码:response = requests.get(url=url)response.encoding = response.apparent_encoding成功!原创 2021-04-27 16:02:55 · 410 阅读 · 0 评论 -
pymysql 报错 pymysql.err.ProgrammingError: (1064, “You have an error in your SQL syntax;
1.报错使用了:pymysql.escape_string()可以解决字符串转化单双引号的问题2.第一种方法需要排查出那个字符串有问题,可以打印出sql语句查看,发现字符串中只有一个双引号的问题(本人遇到的问题字符串中有一个左上双引号),解决这个问题的方法是找到对应的词加上第一步的方法。3.最好的方法就是所有都加上pymysql.escape_string()的方法,避免其他在遇到此类问题!...原创 2021-04-26 09:07:17 · 11465 阅读 · 0 评论 -
文本生成词云图wordcloud
1.安装 jieba :pip install jieba pip install retext = """ """ 一串待处理的文本2.文本预处理 1.使用正则表达式去除文本中的无用字符及特殊符号import reimport jieba# wenbenpattern = re.compile(u'[a-zA-Z\u4E00-\u9FA5]')pattern1 = re.compile(r'[0-9]')d = pattern.findall(text.encode(...原创 2021-04-25 17:45:42 · 848 阅读 · 1 评论 -
Scrapy POST不支持发送payload参数
1.使用scrapy发送post请求,参数为payload类型一般使用:return scrapy.FormRequest(url=url,formdata=data,headers=headers)到这步思路没有问题,问题就处在scrapy暂时不支持post发送payload类型。源码貌似formdata一般用于表单发送数据,为dict类型,而非str,所以获取会报错解决方法:使用如下方法:return scrapy.Request(url=url,原创 2021-04-22 11:39:13 · 275 阅读 · 0 评论 -
消息队列在爬虫开发上的应用
1.什么是消息队列消息队列一般可以作为数据缓存,在实际应用上用来存储经常需要交互的数据,以此提高访问数据的速度及提高网站的用户体验。2.有哪些数据库是消息队列redis、MQ、celery、mongodb等3.为什么使用消息队列在爬虫中使用消息队列可以开发分布式爬虫,也是分部式爬虫中很重要的技术。目前的分布式爬虫架构主要以redis为主,原因在于缓存的速度快,数据可持久化。常规的爬虫使用的是内存缓存的方式,只有在爬虫运行时,数据暂存在内存中,这样的爬虫速度也是很快的,但是由于数据不可原创 2021-04-06 23:03:20 · 452 阅读 · 0 评论 -
python3 tkinter实现GUI开发
1.使用tkinter开发桌面GUI应用,将常用的数据库操作,开发成桌面的应用。正对的数据库为:Mongodb数据库使用frame框架以及grid布局方式使用的组件:lable标签、entry输入框、text文本、button按钮使用的数据库的语法。查询总数、查询当天的采集数,修改采集状态、查询一段时间的采集量使用案例如下:import tkinterimport pymongoimport datetimefrom PIL import Image,ImageTkdef原创 2020-11-12 15:45:58 · 417 阅读 · 0 评论 -
Gerapy部署爬虫
1.先安装pip install gerapy初始化gerapy init 会在当前目录下创建一个gerapy文件 里面有一个projects文件夹用于存放要部署的 scrapy文件,可以放置多个文件等待调度Cd gearpy 目录下 运行 创建数据库 gerapy migrate在当前目录下创建了sqlite.db数据库需要创建账号 gerapy createsuperuser输入账号名 邮件号 密码运行 gerapy runserver...原创 2020-11-12 15:28:34 · 380 阅读 · 0 评论 -
VPS性能优劣与使用
场景;爬虫开发,需要大量ip,可以购买vps服务器。vps服务器优点:是通过拨号上网,切换网卡,更换获取新的IP,对于大批量的爬虫来说,一旦网站被封,需要更换ip,考虑成本的问题,这时候的vps就是最佳的选择,价格几十块钱一个月,还是很便宜的。稳定性也是不错的。vps服务的缺点:由于是拨号上网,所以需要先断开网络之后,在连接网络。在断网再联这个期间ip是不可用的,失效的。其次频繁的拨号上网会使得网卡卡死,更换ip失败,这个时候就需要重启vps.,但也还有更优的方法,就是定时拨号更换,防止网卡卡死。原创 2020-11-12 15:59:29 · 254 阅读 · 0 评论 -
python3打包项目并传参
1.使用pyinstaller包进行打包安装:pip install pyinstaller通过cmd传递参数主要通过:sys.argv[1]代表第一个参数sys.argv[2]代表第二个参数例:import requestsimport sysdef getBaiduHtml(keyword): url = 'https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=1&rsv_idx=1&tn=bai..原创 2020-11-12 15:08:08 · 586 阅读 · 1 评论 -
fiddler抓包视频
""" 解析视频 可以抓包也可以控制台查看 下载VIP视频 --哪吒之魔童降世 cmd 下合并视频copy/b *.ts 哪吒.mp4"""from multiprocessing import Poolimport requestsclass Vip(object): #构造urls def get_urls(sel...原创 2020-11-12 15:58:09 · 5710 阅读 · 12 评论 -
pyinstaller打包程序这么简单
需要准备素材:python文件 图标(格式为.ico)安装pyinstaller: pip install pyinstaller有两种进入查找文件的方法:1)直接cmd或者快捷键(win+r)然后进入所在文件的文件夹2)直接打开文件所在的文件夹 然后shift+鼠标右键 点击windows powershell1、然后将图片和文件放到一起 在终端输入 pyinsta...原创 2019-11-02 12:54:19 · 361 阅读 · 0 评论 -
Python爬虫:爬取app短视频
"""夜神模拟器+fiddler+Python爬取app抖音小视频下载fiddler配置网络与端口下载夜神配置网络下载认证下载app最后抓包"""class DouYinApp(): #页面请求 def get_page(self,url): response = requests.get(url) r...原创 2019-10-15 14:26:42 · 7432 阅读 · 5 评论 -
Python多线程爬虫:爬取红盾网
import requestsimport timeimport csvimport pymongofrom lxml import etreefrom multiprocessing import Pool"""本项目只用于学习,不用于获取倒卖任何信息获取网页所有地区的链接详情页信息Windows10Pycharm2018xpath多线程数据库"""clas...原创 2019-09-27 18:36:05 · 364 阅读 · 0 评论 -
Python爬虫:获取京东商城商品信息
爬取京东商城商品信息爬取 :商品价格 商品名商品评论数 商品购买值 店铺 详情页商品指标直接上代码:from selenium import webdriverimport requestsfrom multiprocessing.pool import Poolfrom lxml import etree#爬取京东商城browser = webdriver.P...原创 2019-08-07 21:47:42 · 17913 阅读 · 1 评论 -
Python爬虫:爬取城市景点信息
爬取详情页面的所有信息景点名称,地址 、简介、类型、时间、门票等直接就上代码;import requestsfrom lxml import etreefrom multiprocessing.pool import Poolheaders = { 'Referer': 'https://yancheng.cncn.com/jingdian/dazonghu/', ...原创 2019-08-07 21:35:12 · 3306 阅读 · 0 评论 -
Python爬虫:多线程爬取盗墓笔记
用到的库函数import requestsimport timefrom lxml import etreefrom multiprocessing.pool import Pool爬取用xpath爬取盗墓笔记的标题、章节、正文直接上代码:页面获取;def get_info(url): headers = { 'Accept'...原创 2019-08-03 15:41:09 · 624 阅读 · 0 评论 -
Python 爬虫:selenium自动爬取淘宝商品
这个代码基于上篇的爬虫加以修改,可以灵活的输入想要爬取的商品名称,以及爬取页数。不在详细介绍,上篇基本备注都比较详细,就直接上代码了:import requestsfrom lxml import etreefrom selenium import webdriverimport timeimport csv#selenium+xpath爬取整站任意商品browser = ...原创 2019-07-17 08:01:25 · 54 阅读 · 4 评论 -
Python爬虫:Q房网房源信息
#爬虫项目采取xpath解析#爬取Q房源网的详情信息并保存为csv文件#爬取具体内容有:"小区名称", "户型", "面积", "装修", "楼层", "朝向",# "售价", "总价/万", "详情" 1、导入模块import requestsimport timefrom lxml import etre原创 2019-02-15 12:16:17 · 4126 阅读 · 7 评论 -
Python爬虫:爬取抽屉网
#用xpath爬取抽屉网#翻页爬取抽屉网的段子#爬取内容为段子的作者、点赞数、评论数、内容1、导入模块import requestsimport timefrom lxml import etree2、#创建保存函数def save_info(contents): with open('./段子.doc', 'a', encoding='utf-8', newl...原创 2019-02-15 16:04:30 · 512 阅读 · 0 评论 -
Python爬虫: 爬取淮安出租房源信息56页1111套
Python爬虫:# 爬取淮安出租房源信息1111套# 爬取内容为小区名、户型、面积、价格、地址# 本次爬取使用xpath进行数据的提取1、导入模块 import requests from lxml import etree import threading2、定义huaian_chuzu_house(i)函数进行页面爬取def hua...原创 2019-02-14 12:24:56 · 277 阅读 · 0 评论 -
Python爬虫: 爬取链家淮安经纪人信息
Python 爬取链家淮安经纪人信息#爬取链家房源经纪人信息#有xpath解析爬取:人名,负责区域#定义csv保存函数1、导入模块import requestsfrom lxml import etreeimport csvimport time2、创建页面抓取主函数def lianjia_spider(list_url):def lianjia_spider(...原创 2019-02-14 13:53:33 · 650 阅读 · 0 评论 -
爬取某爱某家网二手房源信息
# xpath爬取# 爬取小区名称、户型、地区、售价、总价1、导入模块import requestsimport csvfrom lxml import etree2、创建类# 创建我爱我家类class Woaiwojia:3、类函数定义编写# 创建页面获取函数 def get_page(self, url): self.url = u...原创 2019-03-01 16:29:44 · 3222 阅读 · 9 评论 -
Python爬虫:正则表达式爬取校花网
#正则表达式爬取校花网# 网址 url = 'http://www.xiaohuar.com'#分页爬取大学校花图片共16页640张美图1、导入模块import requestsimport re2、定义页面爬取函数get_page(url)def get_page(url): response = requests.get(url) #获取HTML代码 ...原创 2019-02-20 15:03:46 · 502 阅读 · 0 评论 -
Python爬虫:正则表达式爬取猫眼电影
#正则表达式爬取猫眼电影#网址http://maoyan.com#爬取猫眼电影排行前一百名电影#爬去排名、图片、片名、演员、时长、得分1、导入模块import requestsimport reimport json2、#定义页面获取函数def get_one_page(url): headers = { "User-Agent":"Mozil...原创 2019-02-20 15:15:05 · 1037 阅读 · 0 评论 -
Python爬虫:爬去韩国电视剧信息
最近看韩剧想重温一下以前看的韩剧 但是就记得剧情 到网站上找了 太多点的太麻烦,网上问了也回答不了 找的几个片名都不对,所以就想写个爬虫爬去某站上所有的韩剧信息,可以方便查找想看的韩剧爬取具体如下:# 爬去网站韩国电视剧的信息# 爬去片面、时间、地区、主演、简介1、导入模块import requestsimport timefrom lxml import etree...原创 2019-03-21 16:45:16 · 1748 阅读 · 0 评论 -
Python爬虫: 爬取图片
爬取网上的图片,为网站提供图片丰富的素材具体爬取过程如下:import requestsfrom lxml import etree# 爬取天堂图片网图片class Picture(object): def __init__(self, url): self.headers = {'User-Agent': 'Mozilla/5.0 (Windows...原创 2019-04-04 18:45:03 · 497 阅读 · 0 评论 -
Python爬虫:爬取西刺dail
网址:#https://www.xicidaili.com/nn/1vscode爬取:xpath提取数据:ip,port,local,hidden,kind,check_time程序是有用, 只是由于过多的请求爬取,最后电脑访问不了西刺代理网站了,但有兴趣的朋友可以复制到自己电脑试试。应该是可以的还是希望你朋友们对网站温柔点吧!上代码:需要的库:import re...原创 2019-05-10 21:35:55 · 1497 阅读 · 0 评论 -
python 爬虫:爬取91job竞赛题库
#http://ycit.91job.gov.cn/contest/question#本次爬去的是91job竞赛的题库#共52题#爬去题目与正确答案#保存为doc格式#由于需要登陆所以我采用的是cookie#但是可能在你使用这部分代码是cookie已经失效了 你可以用自己的账号#xpath是一款十分好用的提取数据的方法#由于爬取简单就直接上代码了import ...原创 2019-06-07 13:08:25 · 5616 阅读 · 4 评论 -
Python爬虫:selenium+xpath爬取腾讯招聘
#selenium 爬取javascript编写的网页#使用xpath#爬取职位名称以及基本介绍直接上代码!!!from selenium import webdriverfrom lxml import etree# 创建tecent类class tencent(object): # 构造函数带参数url def __init__(self, url):...原创 2019-06-24 18:23:54 · 907 阅读 · 0 评论 -
Python爬虫:selenium+xpath爬取淘宝商品信息
爬取内容:商品名称、价格、销售量、店铺名、商家地址1 导入库函数:from selenium import webdriverimport timefrom lxml import etreeimport csv2、driver = webdriver.Firefox()#火狐浏览器模拟请求3、解析函数def get_info(url, page):#页面请求解析函数...原创 2019-07-05 12:45:11 · 2478 阅读 · 0 评论 -
Python爬取电影信息
利用火狐浏览器模拟登录爬取源码 ! 爬取电影天堂的影片进行多页爬取1、导入模块from bs4 import BeautifulSoupimport reimport requestsfrom selenium import webdriverimport time2、构建浏览器爬取多页代码 for i in range(1, 4):#爬去第一页到第三页的信息...原创 2019-01-01 11:26:39 · 3212 阅读 · 0 评论