爬虫
南桥经不起秋
新手上路,多多指教,从无到有(๑• . •๑)
The way to the king
展开
-
pymysql 使用,数据库和python交互
python中爬取的内容载入sql用requests抓取需要的网页的内容,接入数据库下面是pymysql常见方法connect() 方法声明一个MySQL连接对象db,此时需要传入MySQL运行的host(即IP)。由于MySQL在本地运行,所以传入的是localhost。如果MySQL在远程运行,则传入其公网IP地址。后续的参数user即用户名,password即密码,port即端口(默认3306),databse(选择mysql数据库中自己创建好的一个库名)cursor() 方法获得MySQL的原创 2020-09-25 21:13:12 · 96 阅读 · 0 评论 -
scrapy框架简介、使用方式
1.框架的基本解读scrapy engine :引擎,负责各个部件之间的通讯,信号以及数据的交流与传递scheduler :调度器,负责接收的是引擎发送过来的requests请求,按照一定的方式进行整理排序,入队,将来如果引擎需要,就要将requests还给引擎Downloader middlewares :下载中间件,自定义的内容,扩展下载功能downloader :下载器,负责将引擎传递过来的requests发送出去,将返回的response对象,直接交还给引擎,由引擎交给spider原创 2020-09-23 20:18:27 · 322 阅读 · 0 评论 -
request结合lxml包中的xpath使用
# coding=utf-8 #爬虫必须写,防止编译错误import requests import re #正则from lxml import etree #转化html文档包url='https://hz.lianjia.com/zufang/' #统一资源定位符headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,原创 2020-09-23 20:09:28 · 159 阅读 · 0 评论 -
爬虫(爬取图片存入本地、贴吧名转化url地址
爬取图片存入本地# coding=utf-8 #防止编码错误,爬虫开头必写import requestsimport reurl='https://tieba.baidu.com/f?fr=wwwt&kw=%E5%8A%A8%E6%BC%AB%E5%A4%B4%E5%83%8F%E5%90%A7'headers={头}response=requests.get(url=url,headers=headers)# print(response.text原创 2020-09-21 20:44:08 · 360 阅读 · 0 评论 -
简单请求头,输出一些返回数据
import requests# ret=requests.get(url='https://tbmsg.baidu.com/gmessage/get?mtype=1&_=1600415323147')# print(ret)# # print(ret.encoding)# # print(ret.headers)# # print(ret.cookies)# # print(ret.status_code)# #字节流文件:多媒体文件# print(ret.content)#原创 2020-09-18 21:22:27 · 231 阅读 · 0 评论 -
爬虫入门基础知识
1、爬虫基础知识1.1 爬虫的分类爬虫种类说明通用爬虫搜索引擎的一部分,将互联网的网页下载到本地,形成镜像聚焦爬虫面向特定的需求,在网页抓取的时候对内容已经进行了筛选更多的是面向聚焦爬虫1.1.1搜索引擎工作原理1.1.1.1抓取网页 搜索引擎网络爬虫1、首先选取一部分种子url,将这些URL放入到等待抓取的url队列中。2、取出待抓取的url地址,解析等到主机的ip,将url对应的网页下载下来,存储进已经下载的网页库中,并且将这些已经完成url地址抓取原创 2020-09-18 20:44:39 · 761 阅读 · 1 评论