爬虫
可欣の扣得儿
这个作者很懒,什么都没留下…
展开
-
爬虫数据存入数据库
将爬虫获取的数据存入数据库,需要在pipeline里完成。一、默认的项目是将pipeline的功能关闭了,这里我们先在settings.py中打开。其中设置里可以增加多个操作,后面的数字代表操作的先后顺序。ITEM_PIPELINES = { 'qidian_hot.pipelines.QidianHotPipeline': 300,}二、首先打开SQLyog,新建一张表。并在 settings.py 里写入有关数据库的信息:MYSQL_DB_NAME = "qidian"MY原创 2020-12-03 20:56:03 · 3500 阅读 · 0 评论 -
Scrapy之Item
在上一篇的基础上,将数据存储的字典进行改进。将获取到的内容存到 item 中。一、在 items.py 文件夹下的类中添加列表名import scrapyclass QidianHotItem(scrapy.Item): # define the fields for your item here like: name = scrapy.Field() author = scrapy.Field() type = scrapy.Field() state原创 2020-12-03 17:01:03 · 501 阅读 · 0 评论 -
Scrapy
一、创建项目在命令行里进入到创建项目的文件夹,输入命令 scrapy startproject 项目名原创 2020-12-03 14:54:18 · 280 阅读 · 0 评论 -
PLT(2)——不同图像的绘制
将xlsx文件导入,然后绘制各种图像。要将xlsx文件用记事本打开,设置编码为utf-8(原来是ANSI),然后把他设为csv格式。代码如下:import pandas as pdfrom matplotlib import pyplot as pltfrom pylab import mpl#图表的字体设置mpl.rcParams['font.sans-serif'] =...原创 2020-03-11 12:50:46 · 428 阅读 · 0 评论 -
爬虫(六)——模拟用户登录在线网站
许多资源需要用户登录以后才能见到,这时我们可以通过创建会话,使用Fidder工具获取登录信息,从而模拟用户登录,爬取登录后的资源。代码如下:import requestsfrom lxml import etreepost_url = "http://www.dajiangtai.com/login/check.do"mysession = requests.Session()...原创 2020-03-10 13:53:07 · 456 阅读 · 0 评论 -
爬虫(五)——爬取AJAX资源
1、很多网页数据是由AJAX文件传送的,并不能从源代码直接获取,这时就需要在F12上用network来找到资源的地址,再爬取信息。2、浏览器登陆和爬虫登录页面时有差别,所以我们需要自己生成一个用户代理码。代码如下:import requestsimport refrom lxml import etreefrom fake_useragent import UserAge...原创 2020-03-10 13:49:39 · 459 阅读 · 0 评论 -
爬虫(四)——用beautiful soup爬取信息
以51job网站为例,代码如下:import requestsfrom bs4 import BeautifulSoupimport pandas as pdfrom pandas import DataFrameurl = "https://search.51job.com/list/080000,000000,0000,32,9,99,Java%25E5%25BC%2580%...原创 2020-03-10 13:44:30 · 434 阅读 · 0 评论 -
爬虫(三)——获取网页图片并保存在本地
以京东商城的商品图片为例,涉及的知识点有:1.正则匹配获取图片地址2.修正图片地址格式3.用request.get(url)获取图片链接,并通过os操作保存到本地。代码如下:import requestsimport reurl = 'https://channel.jd.com/1713-3258.html'res = requests.get(url)res.e...原创 2020-02-27 11:26:14 · 1275 阅读 · 0 评论 -
爬虫(二)——用正则匹配获取信息
以爬取51job网为例,使用正则匹配方法,代码如下:import reimport requestsfrom pandas import DataFrameurl = 'https://search.51job.com/list/080000,000000,0000,32,9,99,%25E5%2589%258D%25E7%25AB%25AF%25E5%25BC%2580%25E5%...原创 2020-02-27 00:27:40 · 361 阅读 · 0 评论 -
爬虫(一)——收集网页信息并导出
以51job上的前端开发职位为例,代码如下:import requestsfrom lxml import etreefrom pandas import DataFrame#确定爬取网址#以51job网址为例,?后面是后台参数,可以删掉url = 'https://search.51job.com/list/080000,000000,0000,32,9,99,%25E5%25...原创 2020-02-26 00:21:11 · 991 阅读 · 0 评论