![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
文章平均质量分 86
简单的爬虫学习
bigdata7
Java学习
展开
-
一文解决scrapy带案例爬取当当图书
Scrapy框架简介Scrapy的五大组件Spiders(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器)Engine(引擎):负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。Scheduler(调度器):它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。Down原创 2021-06-01 19:03:51 · 1989 阅读 · 8 评论 -
Python多线程爬取中国天气网图片
文章目录Python实现多线程Python的前后台线程线程等待多线程与资源多线程爬取中国天气网的图片数据Python实现多线程线程类似于同时执行多个不同的程序,多线程运行的优点:1.使用线程可以把占据长时间的程序中的任务放到后台去处理;2.可能加快程序的运行速度;3.在一些等待的任务,例如用户输入、文件读写和网络收发数据等,线程就比较有用了;4.每个线程都有自己的一组cpu寄存器,称为线程的上下文,该上下文,反映了线程上次运行该线程的cpu寄存器的状态;5.在其它线程正在运行时,线程可以暂时睡原创 2021-05-22 15:40:21 · 328 阅读 · 0 评论 -
requests+sqllite+BeautifulSoup爬取中国天气网
项目目的:利用requests+sqllite+BeautifulSoup几种主要技术爬取中国天气网指定城市的7天天气数据分析:可以查看这篇最后的小项目sqllite部分1.建数据库sqllite数据库不用单独创建,在连接的时候有就连接,没有就自动创建。conn = sqlite3.connect("weather.db")2.建表 def openDB(self): self.conn = sqlite3.connect("weather.db")原创 2021-04-24 20:32:25 · 872 阅读 · 2 评论 -
BeautifulSoup详解
文章目录1.下载安装2.导入3.装载HTML文档4.将文档数转换成字符串格式5.BeautifulSoup查找文档元素6.BeautifulSoup遍历文档树7.BeautifulSoup使用css语法查找元素9.字符编码问题8.实例:爬取中国天气网数据兰州7天的1.下载安装pip install bs42.导入from bs4 import BeautifulSoup as bs3.装载HTML文档soup = bs(doc, 'lxml')#doc是一个HTML文档字符串,可以自动补.原创 2021-04-20 18:57:05 · 2368 阅读 · 3 评论 -
requests库+xpath+lxml简单使用
python的requests它是python的一个第三方库,处理URL比urllib这个库要方便的多,并且功能也很丰富。【可以先看4,5表格形式的说明,再看前面的】安装直接用pip安装,anconda是自带这个库的。pip install requests简单使用requests的文档1.简单访问一个url:import requestsurl='http://www.baidu.com'res = requests.get(url)res.textres.status_cod原创 2021-04-19 21:03:48 · 1490 阅读 · 6 评论 -
Scrapy下载以及简单爬虫项目的创建
Scrapy下载以及爬虫项目的创建一.概述【图片传不了 心态么得了】1.使用python语言开发的爬虫组件,可以方便的从网站爬取需要的网页数据。2.可以对网页元素进行解析并获取指定的数据,这些数据可以与实体当中的属性对应。【方便存储到数据库中】3.Scrapy框架的组件由五部分组成:(1).爬虫引擎(Scrapy Engine):用于控制整个爬取的流程(2).调度器(Scheduler):将请求爬取的网址排列为一个队列(3).下载器(Downloader):从请求的网址中下载网页内容(4)原创 2020-11-25 11:56:07 · 176 阅读 · 0 评论 -
正则表达式与网页爬虫【re与urllib】简单使用
正则表达式与网页爬虫【re与urllib】简单使用一、Python正则表达式这个比较基础 大概 不是太细 这篇博文【https://blog.csdn.net/qq_43636709/article/details/107140529】后面有几个比较好的实例 可以拿来练手1、正则表达式的概念通过一组特殊的字符串按照指定的序列定义的一种规则,称为正则表达式。2、正则表达式的主要作用主要用于用户输入的数据进行验证,验证用户输入的数据是否符合定义的规则。3、正则表达式基本语法例如对手机号码进原创 2020-11-06 14:35:12 · 338 阅读 · 0 评论 -
json的读写方式与Python和字典与json的相互转化
json的读写方式与Python和字典与json的相互转化一. python与json对象1.json定义[python内置]json:javascript原生的对象。(不需要第三方解析,由浏览器自动进行解析)2.json对象的定义jsonobj = {dict};3.json组件的引入:import json4.json与dict相互转换e.g:import json#初始化字典dict = {'A':1,'B':2,'C':3}print(type(dict))#查看类型pri原创 2020-11-03 16:00:57 · 144 阅读 · 0 评论 -
python爬虫正则表达式re库简介
python爬虫:实际上爬虫一共就四个主要步骤:明确目标 (要知道你准备在哪个范围或者网站去搜索)爬 (将所有的网站的内容全部爬下来)取 (去掉对我们没用处的数据)处理数据(按照我们想要的方式存储和使用)我们down下了的数据是全部的网页,这些数据很庞大并且很混乱,大部分的东西是我们不关心的,因此我们需要将下载的数据按我们的需要过滤和匹配出来。那么对于文本的过滤或者规则的匹配,最强大的就是正则表达式,是Python爬虫世界里必不可少的神兵利器。什么是正则表达式?正则表达式,又称规则表达式原创 2020-07-05 16:20:33 · 260 阅读 · 0 评论