![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 54
一蓑烟雨任平生√
这世上的一切都借希望而完成,农夫不会剥下一粒玉米,如果他不曾希望它长成种粒;单身汉不会娶妻,如果他不曾希望有孩子;商人也不会去工作,如果他不曾希望因此而有收益。
----不为失败找借口,志伟成功找方法
展开
-
Python爬虫抓取气象_bs4+定时器+mysql+对象_一蓑烟雨任平生
文章目录前言说啥呢?直接扔代码吧看不懂的话你细品 留言也可以 进群也可以总结前言麻雀虽小 五脏俱全 这篇爬虫文章涉及的技术不少bs4抓取数据 (之前一直用xpath感觉一种东西吃多了会腻)定时器(一次执行终身执行 懒人必备)mysql(数据库 存数据的地方)对象(面向对象编程)说啥呢?直接扔代码吧看不懂的话你细品 留言也可以 进群也可以# -*- coding: utf-8 -*-"""# @Time : 2021/4/6 10:10 # @Author : 一蓑烟雨任平生原创 2021-04-06 16:06:51 · 236 阅读 · 0 评论 -
Python将网页转成pdf神器pdfkit库的使用__一蓑烟雨任平生
文章目录前言先看下成果图哈一、安装必要软件二、开怼代码1.引入库2.导包3.糟糕网站4.创建对象HtP5.获取链接思路:6.获取正文内容7.循环每个内容拼接成大的页面8.开始打印内容!打印为什么不直接打印内容?那三个参数分别代表什么?9.最后一步来个main跑起来最后,附上源码?总结前言有的网页查看起来不是很方便,于是就想到了,转成pdf转下来慢慢看?先看下成果图哈最终效果就是这样子,感觉是不是很炫酷,哈哈哈一、安装必要软件wkhtmltopdf,这个工具的下载网站是:点这里感觉下载慢原创 2021-02-06 11:48:37 · 856 阅读 · 1 评论 -
Python两种获取cookie方法以及拼接cookie_一蓑烟雨任平生
文章目录前言cookie有什么用呢?下面两种法介绍获取网页Cookieselenium获取cookie后进行组装requests获取cookie总结前言cookie有什么用呢?我的理解就是保持登录状态,有时候爬取网页不需要输入账号密码,就是因为携带了cookie下面两种法介绍获取网页Cookieselenium获取cookie后进行组装cookie = driver.get_cookies() pp = ''for i, key in enumerate(cookie[0]):原创 2021-01-26 17:14:24 · 1646 阅读 · 0 评论 -
Python某宝数据爬取_一蓑烟雨任平生
文章目录前言一、前期准备二、使用步骤1.引入库2.读入数据总结前言本篇文章仅供Python学习,禁止商业用途,其中需要优化的地方很多,比如爬取页数,又比如按条件排序爬取,想拿走就拿走,毕竟得不到什么,这里对自己的成果做一下记录,仅此而已一、前期准备示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.p原创 2021-01-26 12:01:47 · 413 阅读 · 0 评论 -
Python 笔记_不积跬步无以至千里_一蓑烟雨任平生
Xpath://div[contains(@class,"td-01")]Selenium:在这里插入代码片原创 2021-01-19 17:42:03 · 448 阅读 · 0 评论 -
Python解决乱码万能方法以及一些个人思路_一蓑烟雨任平生
文章目录前言一、乱码是什么二、解决方法1.第一种:2.第二种:第一步:查看网页编码第二步:转换编码总结前言最近粉丝在爬取文章时,总遇到乱码,而不知道该如何下手,这里就总结一下应对乱码的方法一、乱码是什么乱码,指的是由于本地计算机在用文本编辑器打开源文件时,使用了不相应字符集而造成部分或所有字符无法被阅读的一系列字符。造成其结果的原因是多种多样的。二、解决方法1.第一种:乱码的产生可能是因为全部搞成utf-8格式,然后忽略别的所有格式格式具体操作就不写了,请看我的另外一篇文章编码解码解决原创 2021-01-25 14:06:09 · 647 阅读 · 0 评论 -
Python 小白上手的简单爬虫——肯德基——一蓑烟雨任平生
老规矩,直接上代码# -*- coding: utf-8 -*-"""@Time : 2021/1/22 10:46@Auth : 张张呀@File :肯德基.py@IDE :PyCharm@Motto:ABC(Always Be Coding)"""from tkinter import Tk, messageboximport easyguiimport requeststop = Tk()top.withdraw()class kendeji: def _原创 2021-01-22 11:04:38 · 370 阅读 · 1 评论 -
Python 抓取豆瓣电影放入表格中__一蓑烟雨任平生
# -*- coding: utf-8 -*-"""@Time : 2021/1/19 14:14@Auth : 张张呀@File :laoshi.py@IDE :PyCharm@Motto:ABC(Always Be Coding)"""import xlwtimport requests# 储存到excel表格中def saveDate(sheet, all_list, book, savepath, page): col = ("ID", "标题", "封面图片地址"原创 2021-01-19 17:28:28 · 329 阅读 · 0 评论 -
Python_爬虫_多线程入门_一蓑烟雨任平生
文章目录前言一、基础知识二、Demo代码总结前言使用这篇Dome的代码可以入门多线程一、基础知识1.python多线程 生产者与消费者模式官方文档:17.1. threading — 基于线程的并行点这里两个案例参考:用Python多线程实现生产者消费者模式点这里python-多线程3-生产者消费者点这里2.@property 装饰器既要保护类的封装特性,又要让开发者可以使用“对象.属性”的方式操作操作类属性,除了使用 property() 函数,Python 还提供了 @property原创 2021-01-07 09:50:19 · 286 阅读 · 0 评论 -
Python图片下载器(单线程PK多线程)_一蓑烟雨任平生
文章目录前言一、有编程基础的看这个二、没编程基础的看这个总结前言最近电脑总是弹出少儿不宜网站,关了,过两天又出来,我真的受不了了,那就盘它好了,本博客分两部分,针对小白一份源码,针对不会编程的人群一份exe,双击就可以了一、有编程基础的看这个# 爬取妹子图全网妹子图片,可以选择爬取年份,自动分类保存import requests, os, timeimport urllib3 # 这个纯粹防止warning提示,没啥作用import easyguiurllib3.disable_war原创 2021-01-08 11:03:30 · 1766 阅读 · 0 评论 -
Python_selenium_自动化_一蓑烟雨任平生
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、selenium是什么?二、使用步骤1.下载自动化谷歌浏览器2.使用selenium下载一张图片总结前言自动化爬虫,实现了机器帮人点开网页进行操作,可以解决99%的问题一、selenium是什么?Selenium [1] 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,S原创 2021-01-05 14:41:15 · 268 阅读 · 1 评论 -
爬虫万能模板之XPath_没有爬不到的数据只有想不到的网站_一蓑烟雨任平生
文章目录前言一、上模板代码二、讲解1.找到需要的网址2.找到Xpath的值怎么找?3.替换Xpath4.组装5.运行总结前言先上代码,就七八行代码,然后讲解怎么套模板一、上模板代码import requestsfrom lxml import etreeimport timeif __name__ == '__main__': headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) A原创 2021-01-04 18:52:52 · 438 阅读 · 0 评论 -
Python爬虫_宅男福利?妹纸勿点__一蓑烟雨任平生
咳咳直接上代码#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/12/15 19:10# @Author : huni# @File : 图库大全1000.py# @Software: PyCharmimport requestsfrom lxml import etreeimport osif __name__ == '__main__': headers = { 'User-A原创 2021-01-04 18:20:59 · 11551 阅读 · 1 评论 -
爬虫抓取51Job职位_生成表格(找工作的看过来)_一蓑烟雨任平生
文章目录前言源码如下:看下效果:总结前言没啥好说的直接上源码吧源码如下:import easyguiimport requestsimport reimport xlwtfrom urllib import parsefrom tkinter import messageboxfrom tkinter import *# 主函数def main(): top = Tk() top.withdraw() savepath = "51.xls" # 定义保原创 2020-12-30 18:59:51 · 422 阅读 · 4 评论 -
Python可配置爬虫_自定义IP+数据库+日志+分类+分页(代理IP破解反爬虫)
麻雀虽小五脏俱全这篇博客仅仅200行代码,却涵盖了Python很多知识面图形化界面+日志打印文件+代理IP+定时器+数据库连接+异常捕获…import requestsfrom bs4 import BeautifulSoup # 用来解析网页import uuidimport pymysqlimport datetimefrom fake_useragent import UserAgentimport time # 导入时间隔from pymysql import Operat原创 2020-12-28 17:14:21 · 405 阅读 · 3 评论 -
Python文件运行说明书以及解决的过程_一蓑烟雨任平生
文章目录前言一、安装Python环境1-安装Python解析器2-安装所需要的包第一步:第二步二、运行Python文件1.修改数据库连接2.舆情和特色添加定时器方法如下第一:第二:3.供需和价格价格遇到的难点1价格遇到的难点24.文章爬取总结前言这篇文章主要是讲解下,爬虫爬取数据的使用方法,针对于有点点电脑基础的人,比如说会开机,会使用鼠标,会打字这些基本方法一、安装Python环境1-安装Python解析器如果你的电脑没有Python环境,是无法运行脚本的,这里有下载好的Python解释器,原创 2020-12-17 11:12:17 · 505 阅读 · 0 评论 -
爬虫爬取LOL和TiMi,文章最后有福利,已打包EXE文件_一蓑烟雨任平生
import osimport requestsurl = 'https://pvp.qq.com/web201605/js/herolist.json'response = requests.get(url)heroList_json = response.json()hero_dir = 'wangzhe'if not os.path.exists(hero_dir): os.mkdir(hero_dir)# 创建存储的文件,判断是否存在,不存在就创建,自己可以更改for m原创 2020-12-10 10:44:34 · 392 阅读 · 4 评论 -
Python爬取彼岸图网10万张高清图片(入门级爬虫)_一蓑烟雨任平生
来张爬取的美女镇楼先上代码,再给你讲解import reimport requestsimport osimport easygui(min, max) = easygui.multenterbox(fields=['起始数', '终止数'], values=['1', '100'])min = int(min)max = int(max)if os.path.exists('zhiwei'): os.chdir('zhiwei')else: os.mkdir('z原创 2020-12-01 10:48:04 · 1836 阅读 · 4 评论 -
农业图谱网_分类-列表-详情三级爬取(源码)_一蓑烟雨任平生
思路很简单就是先分类,爬取分类的数据,然后根据分类数据爬取每个种类下的列表数据,然后根据列表数据一个一个爬取详情数据废话不多说,直接上代码今天要倒霉的网站是农业图谱网# -*- coding: utf-8 -*-import requestsimport pymysqlfrom bs4 import BeautifulSoup # 用来解析网页import uuidimport timeheaders = { 'User-Agent': 'Mozilla/5.0 (Windows原创 2020-11-11 20:44:00 · 395 阅读 · 1 评论 -
农机资讯网_数据爬取(源码)_一蓑烟雨任平生
废话不多说,直接上代码今天要倒霉的网站是农机资讯网# -*- coding: utf-8 -*-import requestsimport pymysqlfrom bs4 import BeautifulSoup # 用来解析网页import uuidimport timeurl = "http://news.nongji360.com"headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleW原创 2020-11-11 20:40:15 · 362 阅读 · 0 评论 -
农机网_多模板页面,无限if抓取(源码)_一蓑烟雨任平生
这个网站算是比较棘手的了,因为每次标签位置都会变,一会标题在div里,一会再select里,一会又在span里,所以无限判断搞的,到最后我都不知道我在写什么了废话不多说,直接上代码今天要倒霉的网站是农机网# -*- coding: utf-8 -*-import requestsimport pymysqlfrom bs4 import BeautifulSoup # 用来解析网页import uuidimport timeurl = "https://www.nongjx.com"原创 2020-11-11 20:38:01 · 200 阅读 · 0 评论 -
新农网_同页面,多种编码,破译编码抓取(源码)_一蓑烟雨任平生
这个反解密搞了我一下午,网页编码一会UTF-8,一会ISO-8859-1,一会GBK,网上的说法不一,都没卵用,最后自己摸索出来的,对全文解码GBK,当遇到别的进行忽略,decode(‘gbk’, ‘ignore’)废话不多说,直接上代码今天要倒霉的网站是新农网# -*- coding: utf-8 -*-import requestsimport pymysqlfrom bs4 import BeautifulSoup # 用来解析网页import uuidimport timeur原创 2020-11-11 20:33:35 · 319 阅读 · 1 评论 -
中国农网_数据抓取(源码)_一蓑烟雨任平生
废话不多说,直接上代码今天要倒霉的网站是中国农网import requests # 用来请求网址import pymysql # 用来存数据库from fake_useragent import UserAgentfrom bs4 import BeautifulSoup # 用来解析网页import time# 中国农网headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/53原创 2020-11-11 20:26:37 · 399 阅读 · 0 评论 -
农业科学院搜索引擎_json数据爬取(源码)_一蓑烟雨任平生
废话不多说,直接上代码今天要倒霉的网站是农业科学院搜索引擎# -*- coding: utf-8 -*-import requestsimport pymysqlfrom bs4 import BeautifulSoup # 用来解析网页import uuidimport timeheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko原创 2020-11-11 20:23:16 · 222 阅读 · 0 评论 -
中国农业信息网_爬取新闻详情(源码)_一蓑烟雨任平生
废话不多说直接上代码今天要倒霉的网站是全国农业信息网import requestsimport pymysqlfrom bs4 import BeautifulSoup # 用来解析网页import uuidimport timeurl = "http://www.agri.cn/V20/ZX/qgxxlb_1"headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KH原创 2020-11-11 20:14:41 · 1183 阅读 · 5 评论 -
惠农网_爬取二级网页内容(源码)_一蓑烟雨任平生
废话不多说,直接上代码今天倒霉的网站是惠农网供应大厅import requestsimport pymysqlfrom bs4 import BeautifulSoup # 用来解析网页from fake_useragent import UserAgentimport uuidimport timecookk = { 'Cookie': 'sessionId=S_0KHA8RH66NM124OL; Hm_lvt_91cf34f62b9bedb16460ca36cf192f4c=原创 2020-11-11 20:07:17 · 1434 阅读 · 7 评论 -
惠农网_破译反爬虫_使用代理IP爬取数据(源码)_一蓑烟雨任平生
费话不多说直接上代码今天要倒霉的网站是www.cnhnb.comimport requestsfrom bs4 import BeautifulSoup # 用来解析网页import uuidimport pymysqlimport time # 导入时间隔import randomfrom fake_useragent import UserAgentcookk = { 'Cookie': 'sessionId=S_0KHA8RH66NM124OL; Hm_lvt_91cf原创 2020-11-11 20:03:11 · 1539 阅读 · 4 评论 -
用XPath一分钟上手爬虫,良心之作__一蓑烟雨任平生
XPath爬取网站信息之前一直使用BeautifulSoup 爬取各种网站数据下午研究了下XPath,只能说太牛B会者不难,难者不会,你会爱上XPath废话不多说,直接上源码# encoding=utf-8import requestsfrom bs4 import BeautifulSoup # 用来解析网页import uuidimport pymysqlimport time # 导入时间隔import datetimeimport threadingfrom lxml原创 2020-11-04 17:36:37 · 458 阅读 · 1 评论 -
Python爬虫使用Oracle数据库,cx_Oracle安装问题汇总——一蓑烟雨任平生
前几天写了一个爬虫,爬取网站信息,一开始用的MySQL,存库成功,本地测试完美没问题,然后项目经理说用Oracle,我说没问题,都差不多,然后本地一顿调试,成功了(因为之前写过数据库用Oracle的脚本)但是当时那个cx_Oracle错误记忆犹新,下载了各种版本才解决,当时没深度思考就过了,今天报应就来了,当服务器上部署执行爬虫脚本之后那个我不想面对的问题出现了,问题如下OK,没引入包,第一反应就是引入包呗pip install cx_Oracle本以为引包之后程序就可以正常运行了,结果出现新的问原创 2020-10-12 11:52:36 · 595 阅读 · 0 评论 -
Python使用cx_Oracle报错Ora-01036解决方案_南国
最近项目又让写爬虫程序,这次用的MySql数据库,上次用的Oracle数据库,这次在爬取数据之后存库的时候并没有用之前的拼接sql进行存库,因为前一段学习Python视频的时候,视频里的老师说拼接的话存在sql注入问题,所以这次用了占位符%s,来防止sql注入在填充的时候就会加引号了,写完之后意识到之前写的那个爬虫脚本也存在相同问题,然后改成占位符%s之后一直报错,百度了之后才知道,Oracle...原创 2020-04-15 18:40:49 · 820 阅读 · 0 评论 -
Python爬虫脚本,Beautifulfly+MySql(源码)
'''Created on 2020年4月15日@author: zhangzhiwei'''import requestsfrom bs4 import BeautifulSoup # 用来解析网页import uuidimport pymysqlimport time # 导入时间隔headers = { 'User-Agent': 'Mozilla/5.0 ...原创 2020-04-15 18:37:56 · 312 阅读 · 0 评论 -
Python爬虫脚本,利用Beautifulfly爬取动态网页网页(源码)
'''Created on 2019年12月23日@author: Zhangzhiwei'''import datetimeimport threadingimport cx_Oracleimport urllib.requestimport uuidimport pyamffrom pyamf import remotingfrom pyamf.flex import ...原创 2020-04-15 18:32:04 · 702 阅读 · 0 评论 -
Python爬虫脚本,初级入门爬取英雄联盟所有皮肤(源码)
import requestsimport os# 创建lol文件夹os.mkdir("lol")# 2.读取js文件,获取英雄id(hero_id)url = 'https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js'headers = {'User-Agent':'Mozilla/5.0 (Window...原创 2020-04-15 18:28:04 · 1142 阅读 · 0 评论 -
Python爬虫脚本,利用find爬取普通网页(源码)
BeautifulSoup+ Find + Oracle爬取不想存库的话直接用CSV做成表格数据也是可以的,方便了上班族# 全国城市import requestsfrom bs4 import BeautifulSoupimport cx_Oracleimport osimport uuid os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_...原创 2020-04-15 18:22:29 · 630 阅读 · 0 评论 -
条件爬取Flash网站数据,百度都是不带条件的爬取_爬虫_第二篇
很久很久没写博客了,可能最近半年太懒了,也可能是工作忙,忙的打王者,忙的打游戏,没空写博客,哈哈哈,由于不写博客,很久没妹纸找我问东西了,哈哈,还是动手写写吧,不废话直接开始了之前学了一周爬虫,写了一个爬虫(经理要求写,没办法,那就学学呗),但是当时没写博客,当时忘记了,很基础的爬取了十万条数据,然后插入数据库,当时遇到很多难题,等有空了总结下吧经理昨天让我写爬虫,我一心想着之前写过啊,直接根...原创 2019-12-24 12:02:21 · 804 阅读 · 2 评论