惊鸿若梦一书生
人工智能方向硕士和博士。已发表SCI(二区)论文1篇,EI论文4篇,著作1部,并多次获得国家级证书,主持申报并结项三项科研基金项目,累计经费逾50W。中国自动化协会会员,CSDN专栏作家,博文累计阅读量逾120W。
展开
-
Python爬虫实战014:利用requests库实现自动评论
实现单个文章的自动评论以及全网文章的自动评论原创 2024-01-17 10:40:23 · 381 阅读 · 0 评论 -
Python爬虫教程:基于Python爬虫的图片数据获取方法
本文介绍了如何使用 Python 爬虫实现网络图片的获取。这里我们利用 requests 和 lxml 库,获取分类 url 地址及每个分类下的图片详情页链接,并循环 download 每个分类下的所有图片数据。接下来,我们需要循环下载每个分类下的图片。注意:彼岸网的分页是通过 URL 参数实现的,例如第一页为 index.htm,第二页为 index_2.htm,以此类推。因此我们需要根据当前页数拼接出当前页面的 URL。最终,我们可以顺利地爬取并下载彼岸网的所有图片。原创 2023-05-24 11:27:41 · 388 阅读 · 0 评论 -
Python爬虫实战013:Python爬取免费代理ip
Python爬取免费代理ip原创 2022-06-27 21:32:15 · 1021 阅读 · 0 评论 -
Python爬虫实战012:利用chromedriver.exe爬取数据
Python爬虫实战012:利用chromedriver.exe爬取数据。原创 2022-08-11 20:59:05 · 1344 阅读 · 0 评论 -
Python爬虫实战011:python xpath匹配text中包含指定内容的元素的同级的前面或后面的元素的内容
1 匹配text中包含指定内容的元素的text()匹配td元素的text值中包含评审的td元素的text()内容:from lxml import etreepage = '<td>评审专家:</td><td class="td_left">某某人</td>\<td> 名单: </td><td class ="td_left"> 张三、李四 </td>'sub_tree = etree.HTML(pag原创 2022-05-22 10:51:30 · 469 阅读 · 0 评论 -
Python爬虫实战010:反爬取机制学习
# -*- coding: utf-8 -*-"""@ModuleName:demo_001@Function: @Author: H2017824@Time: 2020/12/28 上午 11:21"""from lxml import etreeimport pandas as pdimport reimport randomimport urllibimport requestsimport timeimport osimport json# 随机伪装成一个浏览器,原创 2022-02-10 16:39:47 · 119 阅读 · 0 评论 -
Python爬虫实战009:bs4进行数据解析
bs4进行数据解析1. 数据解析的原理a. 标签定位b. 提取标签、标签属性中存储的数据值2. bs4数据解析的原理a. 实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中b. 通过调用BeautifulSoup对象中相关的属性或方法进行标签定位和数据提取3. 环境安装a. pip install bs4b. pip install lxml4. 实例化BeautifulSoup对象a. from bs4 import BeautifulSoupb原创 2021-08-14 14:57:06 · 189 阅读 · 0 评论 -
Python爬虫实战008:正则练习之爬取嗅事百科中的热图板块中多个页面的数据
import requestsimport reimport osdef re_demo(): content = """ <div class="thumb"><a href="/article/124628312" target="_blank"><img src="//pic.qiushibaike.com/system/pictures/12462/124628312/medium/N66IAKG7QZPVL457.jpg" alt="糗原创 2021-08-14 01:07:15 · 121 阅读 · 0 评论 -
Python爬虫实战007:正则练习之爬取嗅事百科中的热图板块中单页的数据
import requestsimport reimport osdef re_demo(): content = """ <div class="thumb"><a href="/article/124628312" target="_blank"><img src="//pic.qiushibaike.com/system/pictures/12462/124628312/medium/N66IAKG7QZPVL457.jpg" alt="糗原创 2021-08-14 00:54:09 · 138 阅读 · 0 评论 -
Python爬虫实战006:爬取一张图片
聚焦爬虫聚焦爬虫数据解析分类1. 正则2. bs43. xpath(***)数据解析概述案例:爬取一张图片聚焦爬虫聚焦爬虫:爬取页面中指定的页面内容编码流程:指定url发起请求获取响应数据数据解析持久化存储数据解析分类1. 正则2. bs43. xpath(***)数据解析概述解析的局部的文本内容会在标签之间或标签对应的属性进行存储标签或者标签对应的属性中存储的数据进行提取(解析)案例:爬取一张图片import requests原创 2021-08-13 23:51:45 · 161 阅读 · 0 评论 -
Python爬虫实战005:爬取化妆品生产许可证相关数据
import requestsimport jsonif __name__ == '__main__': url = "http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like G原创 2021-08-13 23:11:40 · 571 阅读 · 0 评论 -
Python爬虫实战004:爬取肯德基餐厅查询中指定地点的餐厅数
# 如果网站发起请求后地址栏不发生改变,则是ajax请求,局部刷新# http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keywordimport requestsimport jsonif __name__ == '__main__': url = "http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword" data = { 'cna原创 2021-08-13 15:46:45 · 433 阅读 · 0 评论 -
Python爬虫实战003:爬取豆瓣电影分类排行榜
import requestsimport jsonif __name__ == '__main__': url = "https://movie.douban.com/j/chart/top_list" params = { 'type': '24', 'interval_id': '100:90', 'action': '', 'start': '0', # 从库中的第几部电影去取 'limit':原创 2021-08-13 14:22:58 · 511 阅读 · 0 评论 -
Python爬虫实战002:破解百度翻译
# 百度翻译,局部刷新用的技术就是ajax# 抓包工具:浏览器--->检查# ajax对应 检查---> Network ---> XHR里面的内容# 查找关键字是哪个数据包(点击Name中不同的数据包,在Headers中找一下你输入的关键字),然后查看请求类型,response等信息import requestsimport jsonif __name__ == '__main__': # 1. 指定url url = "https://fanyi.ba原创 2021-08-13 10:37:54 · 414 阅读 · 0 评论 -
Python爬虫实战001:爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)
# UA:User-Agent(请求载体的身份标识)# UA检测:门户网站的服务器会检测对应请求的载体身份标识,如果检测到请求的载体身份标识为某一款浏览器,则说明# 该请求是一个正常的请求。但是,如果检测到请求的载体身份标识不是基于某一款浏览器的,则表示该请求是不正常的请求(爬虫)# 则服务器就很有可能拒绝该次请求# UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器import requestsif __name__ == '__main__': # UA伪装:将对应的Use原创 2021-08-13 09:47:18 · 564 阅读 · 0 评论 -
Python爬虫实战000:爬取搜狗首页信息
1.网络请求模块主要有两个:—urllib模块,比较古老的模块,且用法麻烦—requests模块,比较新的模块,用法简单,因此主要用这个2.requests模块:python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。作用:模拟浏览器发请求。如何使用:(requests模块的使用流程)a.指定URLb.发起请求c.获取响应数据d.持久化存储(存储到本地或数据库)环境安装:pip install requestsimport requestsi原创 2021-08-13 09:41:19 · 212 阅读 · 0 评论 -
Python爬虫教程012:Scrapy框架
Scrapy框架1:Scrapy框架简介什么是框架?如何学习框架?什么是scrapy?2:Scrapy框架安装3:Scrapy使用创建一个工程在spider中创建一个爬虫文件修改爬虫文件修改设置文件settings执行工程1:Scrapy框架简介什么是框架?就是一个集成了很多功能并且具有很强通用性的一个项目模板如何学习框架?专门学习框架封装的各种功能的详细方法什么是scrapy?爬虫中封装好的一个明星框架功能:高性能的持久化存储、异步的下载、高性能的数据解析、分布式2:Scrapy框架安装原创 2022-02-10 16:33:07 · 112 阅读 · 0 评论 -
Python爬虫教程011:requests简明教程
requests模块比urllib模块的用法更方便、简介。每一个使用Python的开发人员一定要有一种常识:你所写的代码越简单越好!,想秀自己编程水平的,您还是用c吧,莫让Pythoner鄙视您嘞!开启美好的requests之旅吧!安装pip install requests最基本的用法import requestsurl = "http://www.baidu.com"r = requests.get(url=url) # 得到Request对象print("type(r):原创 2022-02-10 17:06:40 · 139 阅读 · 0 评论 -
Python爬虫教程010:获取天天基金网数据
# -*- coding: utf-8 -*-"""@ModuleName:tiantian_fund@Function: @Author: hupo@Time: 2021/1/29 上午 10:37"""from core.ScriptDemo.requests_common import get_html_textfrom core.ScriptDemo.requests_common import choice_user_agentimport randomimport time原创 2021-01-29 16:05:58 · 452 阅读 · 0 评论 -
Python爬虫教程009:BeautifulSoup模块的使用方法总结
安装方法pip install beautifulsoup4基本使用# -*- coding: utf-8 -*-"""@ModuleName:demo_beautifulsoup@Function: @Author: hupo@Time: 2021/1/29 上午 08:26"""import requestsfrom bs4 import BeautifulSoupimport re# 用requests的get方法从URL:http://www.poge.tech/py原创 2021-01-29 16:04:37 · 134 阅读 · 0 评论 -
Python爬虫教程008:爬取百度搜索结果的前n页的html
# -*- coding: utf-8 -*-"""@ModuleName:scrapy_baidu@Function: @Author: @Time: 2020/11/17 上午 09:02"""import urllibimport urllib.requestimport time# 根据URL发送请求,获取服务器响应文件def load_page(url, filename): print("正在下载:", filename) headers = {"Use原创 2020-11-17 10:04:59 · 858 阅读 · 0 评论 -
Python爬虫教程007:模拟浏览器访问随机切换User-Agent
from urllib import requestimport reimport randomsrc_url = "http://www.baidu.com"def choice_user_agent(): agent1 = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)" agent2 = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/53原创 2020-11-14 16:05:33 · 284 阅读 · 0 评论 -
Python爬虫教程006:获取网页中的title信息
自动创建请求对象比如获取百度首页的title信息,代码如下:from urllib import requestimport resrc_url = "http://www.baidu.com"response = request.urlopen(src_url).read().decode()pat = r"<title>(.*?)</title>"data = re.findall(pattern=pat, string=response)print(data)原创 2020-11-14 14:52:29 · 2621 阅读 · 0 评论 -
Python爬虫教程005:bing图片批量下载
效果如果想要搜其他的图片,只需要在下面的代码中将name = “美景”做相应的修改即可# -*- coding: utf-8 -*-"""@ModuleName:get_bing_3@Function: @Author:@Time: 2020/7/2 下午 03:59"""import sysimport osimport urllibfrom bs4 import BeautifulSoupimport reimport timeheader = { 'Us原创 2020-07-03 09:02:13 · 677 阅读 · 2 评论 -
Python爬虫教程004:用urllib和beautiful soup提取网页信息
需要安装Beautiful Soup包:pip install beautifulsoup4获取网页信息如下:from urllib.request import urlopenfrom bs4 import BeautifulSouptext = urlopen('http://www.poge.tech').read() # 获取网页信息print(text)soup = BeautifulSoup(text, 'html.parser') # 解析网页信息print(soup.原创 2020-07-01 16:52:53 · 397 阅读 · 0 评论 -
Python爬虫教程003:爬取豆瓣电影信息(更加丰富的信息)
# -*- coding: utf-8 -*-"""@ModuleName:demo3@Function:@Author: H2017824@Time: 2020/5/12 上午 09:14"""from urllib import requestfrom lxml import etreefrom urllib.request import urlopen, Requestimport requestsimport jsonimport reimport os# 爬取子页的原创 2020-05-13 07:27:10 · 460 阅读 · 0 评论 -
Python爬虫教程002:爬去豆瓣电影信息
先看代码,再看结果,最后再看详细解释。代码import requestsfrom lxml import etreeimport reurl = 'https://movie.douban.com/subject/1292052/'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 S原创 2020-05-12 10:22:09 · 498 阅读 · 0 评论 -
Python爬虫教程001:最简单的爬虫
前置条件需要首先安装requests包pip install requests程序:import requestsdata = requests.get('https://www.baidu.com')data.encoding = 'tuf-8'print(data.text)输出结果:原创 2020-05-11 22:01:29 · 305 阅读 · 0 评论 -
Python爬虫教程000:网络爬虫简介
前言:从网页中抽取数据的过程就叫做网络爬虫互联网中的数据是庞大的、有用的、可免费公开访问的,但也是很难直接使用的,因为它们被嵌入到网络的结构和样式中,需要抽取出来才能使用,这就是网络爬虫要干的事。为了更好的练习爬虫,可以在这个**示例网站**中进行练习。...原创 2020-10-27 10:14:12 · 243 阅读 · 2 评论