爬虫
@从心
小菜鸟想要把基础打好
展开
-
Scrapy-网易新闻模块爬取
需求首先明确需求:爬取网易新闻新闻的标题和新闻详情页的内容注意项:先从首页获取对应的详情页的url每一个模块的新闻都是动态加载出来的,可配合selenium实现动态加载详情页面的爬取实现过程创建工程:scrapy startproject wangyiPro转入工程:cd wangyiPro创建爬虫文件:scrapy genspider wangyi www.xxx.com实现过程1.1 观察首页结构,定位模块观察网易新闻的首页,配套开发者工具,定位到需要爬取的模块,编写pars原创 2021-12-09 14:59:42 · 843 阅读 · 0 评论 -
使用xpath分页爬取站长素材中的图标
最近在跟着网上的视频复习爬虫,记录一下xpath的使用xpath解析原理: 1、实例化一个etree对象,且需要将解析的页面源码数据加载到该对象中 2、调用etree对象中的xpath方法结合xpath表达式实现标签的定位和内容获取环境安装: pip install lxml如何实例化一个etree对象:from lxml import etree 1、将本地的html文件中的源码数据加载到etree对象中: etree.parse(filePath) 2、可以将网络上获取到的源码数原创 2021-10-19 10:24:41 · 471 阅读 · 0 评论 -
BeautifulSoup爬取小说中所有的标题和内容
BeautifulSoup使用语法如何使用实例化BeautifulSoup对象: from bs4 import BeautifulSoup 对象的实例化: 1、将本地的html文档中的数据加载到该对象中 f = open('/test.html','r',encoding='utf-8') soup = BeautifulSoup(f,'lxml') 2、互联网上获取的页面源码加载到该对象中 page_text = response.text soup = Beaut原创 2021-10-17 10:26:31 · 800 阅读 · 0 评论 -
使用正则解析,分页爬取图片
最近在跟着网上的视频复习爬虫,记录一下使用正则,爬取糗图百科中热图模块下的所有图片# -*-coding:utf-8-*-# 爬取糗图百科中热图模块下的所有图片import requestsimport reimport osif __name__=='__main__': headers = { 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko)原创 2021-10-16 09:55:49 · 168 阅读 · 0 评论 -
简单的requests
一、简易网页采集器爬取搜狗搜索中对应词条的搜索结果页面# -*-coding:utf-8-*-import requests# UA伪装:User-Agent# 门户网站的服务器会检测对应请求的载体身份标识#if __name__=='__main__': # 将对应的User-agent封装到一个字典中 header={ 'User-Agent':'Mozilla / 5.0(X11;Linuxx86_64) AppleWebKit / 537.36(KH原创 2021-10-16 09:40:03 · 135 阅读 · 0 评论 -
爬虫学习01
爬虫学习01爬虫的概念:网络爬虫,就是模拟客户端(主要指浏览器)发送网络请求,接收请求响应,一种按照一定规则,自动地抓取互联网信息的程序模拟浏览器,发送请求,获取响应爬虫特点:原则上,只要是客户端能做的事情,爬虫都能够做到爬虫也只能获取客户端所展示出来的数据爬虫的作用:数据采集爬取微博等社交网站评论(后续机器学习舆情分析)爬取招聘等网站的招聘信息(数据分析、挖掘)新浪滚动新闻百度新闻网站软件测试爬虫自动化测试虫师12306抢票:点击查询就是发送请求,获取响应网站上的投票原创 2021-01-22 11:25:32 · 154 阅读 · 0 评论