python爬虫
文章平均质量分 62
黎明之道
One has to adapt to survive.
Standing on the Shoulders of Giants.
展开
-
python数据存储(TXT,CSV,Mysql,MangoDB)
数据存储一、存储到TXT或CSV1.将数据存储到TXT几种打开文件的方式:读写方式可否读写若文件不存在写入方式w写入创建覆盖写入w+读取+写入创建覆盖写入r读取报错不可写入r+读取+写入创建覆盖写入a写入创建附加写入a+读取+写入创建附加写入title = "This is a test sentence."with open(r'D:\title.txt', "a+") as f: f.wri原创 2021-04-13 18:31:02 · 305 阅读 · 0 评论 -
使用selenium做网页模拟遇到的问题(在淘宝搜索框中输入字符)
使用selenium做网页模拟的时候 由于chrome浏览器自动更新 导致驱动不匹配的问题首先确定你下载谷歌浏览器!!!!!!!!!!代码(在淘宝中搜索框中输入ipad)#coding:utf-8from selenium import webdriverimport timebro=webdriver.Chrome(r"D:\chromedriver.exe")bro.get('https://www.taobao.com/')print(bro.current_url)#找到id名为原创 2021-04-07 17:07:14 · 258 阅读 · 0 评论 -
利用BeautifulSoup爬取豆瓣top250排行榜标题
利用BeautifulSoup爬取标题整体思想:首先导入所需要的库声明一个方法 ,将过程包裹起来获取网页解析网页,找到我们所需要的东西保存内容1.获取随机头部的库方法from fake_useragent import UserAgentheaders = {'User-Agent':UserAgent().random}headers每次返回的头部都是不一样的。2.采用request来获取网页import requestsfrom fake_useragent impo原创 2021-03-29 17:09:53 · 455 阅读 · 0 评论 -
pyhton爬虫之多线程的使用(迅速爬取糗事百科多条段子案例)
多线程当我们写的爬虫是单线程的时候,一旦到一个地方卡的不动了,那就永远的等下去吧,我们可以使用多线程来改变这个问题。爬虫使用多线程来处理网络请求,使用线程来处理URL队列中的url,然后将url返回的结果保存再另一个队列中,其他线程再读取这个队列中的数据,然后写到文件中去。URL队列和结果队列将将要爬取的url放在一个队列中,这里使用标准库Queue,访问url后的结果保存在结果队列中。初始化一个队列:from queue import Queueurls_queue = Queue()ou原创 2020-12-21 20:52:52 · 235 阅读 · 0 评论 -
python爬虫之数据提取:pyquery和jsonpath的使用
pyquery对CSS选择器与Jquery有所了解的话,pyquery可以会适合你。安装:pip install pyquery使用方法初始化字符串:from pyquery import PyQuery as pqdoc = pq(str)print(doc(tagname))url:from pyquery import PyQuery as pqdoc = pq(url = 'http://baidu.com')print(doc('title'))文件:from pyq原创 2020-12-21 19:21:21 · 499 阅读 · 1 评论 -
python爬虫之数据提取Xpath(爬取起点中文网案例)
Xpath详细的Xpath介绍手册——> https://www.w3school.com.cn/xpath/index.asp1.安装xpath.pip install lxml2.安装谷歌XPath插件下载:chrome_Xpath_v2.0.2.crx 格式的文件。拖进插件即可。如果安装不成功,将后缀名改成.rar,解压以后再拖拽进去就可以使用了。效果图(减头所指的地方就可以打开XPath):3.介绍Xpath是在一门在XML文档种查找信息的语言。XPath可用来在XM原创 2020-12-16 17:30:05 · 3017 阅读 · 0 评论 -
python爬虫之数据提取——Beautiful Soup
Beautiful SoupBeautiful Soup提供一些简单的,python式的函数来处理导航、索引、修改分析树等功能。他是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转成Unicode编码,输出文档转换为utf-8编码,不需要考虑编码方式,除非文档没有指定一个编码方式。Beautiful Soup是一个出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。Beautif原创 2020-12-16 16:31:43 · 661 阅读 · 3 评论 -
python爬虫之正则表达式抓取网页内部内容(抓取糗事百科段子案例)
正则表达式安装正则表达式库:pip install re再杂乱的页面中提取出我们想要的文字,这里我们来使用正则表达式。正则表达式是用来匹配字符串非常强大的工具,再其他编程语言中同样具有正则表达式的概念,利用正则表达式,我们可以非常简单的提取去我们想要的内容。正则表达式的规则附后:正则语法下载地址#提取中文:[\u4e00-\u9fa5]#(.+) 提取的内容#\s* 多个换行案例抓取内容如下(含源码):一、相关解释正则表达式的贪婪模式与非贪婪模式例如:正则表达式”ab*" 如原创 2020-12-15 21:24:42 · 1534 阅读 · 0 评论 -
python爬虫之requests库的用法(超全面的爬取网页案例)
requests库利用pip安装:pip install requests基本请求req = requests.get("https://www.baidu.com/")req = requests.post("https://www.baidu.com/")req = requests.put("https://www.baidu.com/")req = requests.delete("https://www.baidu.com/")req = requests.head("https:原创 2020-12-15 19:46:14 · 2107 阅读 · 1 评论 -
python爬虫之cookie与URLErroe异常处理
cookie原创 2020-12-15 18:29:09 · 486 阅读 · 0 评论 -
python爬虫之urllib库的高级用法(案例解释)
urllib库的高级用法设置请求头from fake_useragent import UserAgent这个库获取请求头from urllib.request import urlopen,Requestfrom urllib.parse import urlencodefrom fake_useragent import UserAgenturl = "https://www.12306.cn/index/"headers = {"User-Agent":UserAgent().rand原创 2020-12-14 21:01:56 · 239 阅读 · 0 评论 -
python 爬虫之 爬取网页并保存(简单基础知识)
抓取网页效果图(代码在最后):基础知识认识首先导入所需要的库from fake_useragent import UserAgent#头部库from urllib.request import Request,urlopen#请求和打开from urllib.parse import quote#转码from urllib.parse import urlencode#转码先获取一个简单的网页url = "https://www.baidu.com/?tn=02003390_43_hao原创 2020-12-13 20:54:54 · 11489 阅读 · 3 评论 -
爬虫获取数据
获取数据前面已经说了整体的流程,现在来获取数据,首先,先获取一个URL的网页内容,在获取多个网页内容。headers头部的获取:按F12,然后找到Network ,在找到Doc,按F5刷新,再按左上角红色 的按钮停值,将鼠标拖到最开始,点击以后会有一个关于请求的信息,点开,到最后就有头部User-Agent。得到一个URL的网页内容:#得到指定一个URL的网页内容def askURL(url): #模拟浏览器头部信息,向服务器发送消息 head={"User-Agent":"M原创 2020-07-30 19:00:22 · 945 阅读 · 0 评论 -
爬虫的构建流程(准备工作,获取数据、头部等操作)
爬虫的构建流程HTTP Error 418: 这个错误是对方发现你是爬虫。主要是分为四步:准备工作、获取数据、解析内容、保存数据一、准备工作:一般python程序第一行须加入#-*_coding:utf-8-*-或者#coding=utf-8 这样可以在代码种包含中文在python中,使用函数实现单一功能或相关联功能的代码段,可以提高可读性和代码重复利用率,函数代码块以def关键词开头,后接空格、函数标识符、名称、圆括号()、冒号:,括号中可以传入参数,函数段缩进(Tab或四个空格,只能原创 2020-07-28 20:12:18 · 818 阅读 · 0 评论 -
利用几行python代码爬取全国疫情数据,全方位地图分析疫情地区分布
爬取全国疫情数据所用的网页连接:https://api.inews.qq.com/newsqa/v1/automation/foreign/country/ranklist可视化用到的模块:——>戳这里下载,也可以看最后,或私信我如果没有模块的可自行下载:pip install 模块 命令下载先看下整体效果图:先导入库:import requests #导入第三方库import json # 轻量级的数据交互格式测试网站:url='https://api.inews.qq.原创 2020-07-04 21:44:37 · 5229 阅读 · 4 评论