网络爬虫
look仔
UP UP UP
展开
-
爬虫作业7-爬取内容为前程无忧关于数据分析师的信息,爬取内容为岗位名称、工作地点、公司名称、工资、发布日期、经验、学历、所属行业、公司类型、公司规模、岗位福利,至少爬取20000条数据,存Excel中
完整代码如下:#前程无忧代码import requestsimport pandasimport timeimport randomimport json#用于获取页面信息def getWebResult(url,cookies,header): html = requests.get(url=url,cookies=cookies, headers=header) result = json.loads(html.text) #找到html中result原创 2021-12-08 11:23:36 · 1428 阅读 · 0 评论 -
No.8爬虫学习——xpath基础知识
xpath解析:是最常用且最便捷高效的一种解析方式,通用性1、xpath解析原理(1)实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中(2)通过调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获2、环境的安装:pip install lxml3、如何实例化一个etree对象:from lxml import etree(1)将本地的html文档中的源码数据加载到etree对象中:etree.parse(filePath)原创 2021-12-02 15:29:40 · 699 阅读 · 0 评论 -
爬虫作业6——爬取内容为简书用户的最新评论中的评论题目、评论内容及评论时间,爬取5页(bs4)
网址为罗罗攀 - 简书,爬取内容为简书用户的最新评论中的评论题目、评论内容及评论时间,爬取5页,将这些评论存入Excel文件中,文件后缀为.csv。将ipynb文件和后缀为.csv的文件压缩打包。import requestsfrom bs4 import BeautifulSoupimport csvimport timeheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/53原创 2021-11-27 13:18:44 · 813 阅读 · 0 评论 -
爬虫作业6 ——爬取百度风景图片
完整代码如下:import timefrom urllib.request import urlretrieveimport requestsimport jsonheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36 Edg/96.0.1054.34'}def ge原创 2021-11-27 12:10:12 · 834 阅读 · 0 评论 -
No.7爬虫学习——bs4解析具体使用讲解
bs4只能用于python中一、bs4进行数据解析1、bs4进行数据解析的原理:(1)标签定位(2)提取标签、标签属性中存储的数据值2、bs4实现数据解析的原理:(1)实现化一个beautifulsoup对象,并且将页面源码数据加载到该对象中(2)通过调用beautifulsoup对象中相关的属性或者方法进行标签定位和数据提取3、环境安装(在cmd中安装)pip install bs4pip install lxml4、如何实例化beautifulsoup对象原创 2021-11-17 17:32:36 · 1785 阅读 · 0 评论 -
No.5 爬虫学习——MongoDB爬虫实践:虎扑论坛(唐松编《Python网络爬虫从入门到实践》P116-123)
题目:获取虎扑步行街论坛上所有帖子的数据,内容包括帖子名称、帖子链接、作者、作者链接、创建时间、回复数、浏览数、最后回复用户和最后回复时间,网络地址为:https://bbs.hupu.com/bxj使用mysql作为数据存储器,完整代码如下:import requestsfrom bs4 import BeautifulSoupimport pymysqlimport timeheaders = { 'User-Agent':'Mozilla/5.0 (Windows N原创 2021-11-16 12:59:53 · 794 阅读 · 0 评论 -
No.4 爬虫学习——数据解析之正则解析,以爬取糗图百科中图片为例
1、聚焦爬虫:爬取页面中的指定内容。—编码流程:(1)指定url(2)发起请求(3)获取响应数据(4)持久化存储2、数据解析分类:(1)正则(2)bs4(3)xpath(最通用)3、数据解析原理概述:(1)解析的局部的文本内容都会在标签之间或标签对应的属性中进行存储(2)进行指定标签的定位(3)标签或标签对应的属性中存储的数据值进行提取(解析)4、需求:爬取嗅事百科中糗图版块下所有的糗图图片#如何爬取图片数据import requests原创 2021-11-14 16:26:05 · 431 阅读 · 1 评论 -
№3爬虫学习——实现网络采集器,以百度翻译破解为例
需求:实现网络采集器UA检测(UA伪装)(反反爬策略)需求:实现百度翻译的破解import reqestsimport jsonif _name_=="_main_": #1、指定url post_url = 'https://fanyi.baidu.com/sug' #2、进行UA伪装 headers={'User-Agent':.....省略} #3、post请求参数处理(同get请求一致) word = i原创 2021-11-11 22:14:28 · 873 阅读 · 0 评论 -
№2爬虫学习——requestes模块介绍
1、requests模块python中原生的一款基于网络请求的模块。功能非常强大,简单便捷,效率极高。作用:模拟浏览器发送请求2、requests模块如何使用(requests模块的编码流程)环境安装:pip install requsets3、实战编码需求:爬取搜狗首页的页面数据import requests#step1: 指定urlurl = 'https://www.sogou.com/'#step2: 发起请求#get方法会返回一个响应对象resp.原创 2021-11-11 13:01:51 · 229 阅读 · 0 评论 -
网络爬虫基础概念№1
1、爬虫在使用场景中的分类(1)通用爬虫:抓取系统重要组成部分。爬取的是一整张页面数据(2)聚焦爬虫:是建立在通用爬虫的基础之上。爬取的是页面中特定的局部内容(3)增量式爬虫:检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据2、反爬反爬机制:门户网站,可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取反反爬策略:爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取门户网3、robots.txt协议君子协议。明原创 2021-11-10 20:49:51 · 2474 阅读 · 0 评论 -
利用正则表达式获取豆瓣TOP250电影的英文名、港台名、导演、主演、上映年份、电影分类以及评分
唐松编《python网络爬虫从入门到实践》第47页3.4.3自我实践题全部代码为原创代码完整代码如下:import requestsimport reheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36'}info_lists = []def原创 2021-10-11 23:29:35 · 2641 阅读 · 1 评论