
爬虫
可欣の扣得儿
这个作者很懒,什么都没留下…
展开
-
爬虫数据存入数据库
将爬虫获取的数据存入数据库,需要在pipeline里完成。 一、默认的项目是将pipeline的功能关闭了,这里我们先在settings.py中打开。其中设置里可以增加多个操作,后面的数字代表操作的先后顺序。 ITEM_PIPELINES = { 'qidian_hot.pipelines.QidianHotPipeline': 300, } 二、首先打开SQLyog,新建一张表。并在 settings.py 里写入有关数据库的信息: MYSQL_DB_NAME = "qidian" MY原创 2020-12-03 20:56:03 · 3521 阅读 · 0 评论 -
Scrapy之Item
在上一篇的基础上,将数据存储的字典进行改进。将获取到的内容存到 item 中。 一、在 items.py 文件夹下的类中添加列表名 import scrapy class QidianHotItem(scrapy.Item): # define the fields for your item here like: name = scrapy.Field() author = scrapy.Field() type = scrapy.Field() state原创 2020-12-03 17:01:03 · 521 阅读 · 0 评论 -
Scrapy
一、创建项目 在命令行里进入到创建项目的文件夹,输入命令 scrapy startproject 项目名原创 2020-12-03 14:54:18 · 297 阅读 · 0 评论 -
PLT(2)——不同图像的绘制
将xlsx文件导入,然后绘制各种图像。 要将xlsx文件用记事本打开,设置编码为utf-8(原来是ANSI),然后把他设为csv格式。 代码如下: import pandas as pd from matplotlib import pyplot as plt from pylab import mpl #图表的字体设置 mpl.rcParams['font.sans-serif'] =...原创 2020-03-11 12:50:46 · 439 阅读 · 0 评论 -
爬虫(六)——模拟用户登录在线网站
许多资源需要用户登录以后才能见到,这时我们可以通过创建会话,使用Fidder工具获取登录信息,从而模拟用户登录,爬取登录后的资源。 代码如下: import requests from lxml import etree post_url = "http://www.dajiangtai.com/login/check.do" mysession = requests.Session()...原创 2020-03-10 13:53:07 · 464 阅读 · 0 评论 -
爬虫(五)——爬取AJAX资源
1、很多网页数据是由AJAX文件传送的,并不能从源代码直接获取,这时就需要在F12上用network来找到资源的地址,再爬取信息。 2、浏览器登陆和爬虫登录页面时有差别,所以我们需要自己生成一个用户代理码。 代码如下: import requests import re from lxml import etree from fake_useragent import UserAge...原创 2020-03-10 13:49:39 · 464 阅读 · 0 评论 -
爬虫(四)——用beautiful soup爬取信息
以51job网站为例,代码如下: import requests from bs4 import BeautifulSoup import pandas as pd from pandas import DataFrame url = "https://search.51job.com/list/080000,000000,0000,32,9,99,Java%25E5%25BC%2580%...原创 2020-03-10 13:44:30 · 448 阅读 · 0 评论 -
爬虫(三)——获取网页图片并保存在本地
以京东商城的商品图片为例,涉及的知识点有: 1.正则匹配获取图片地址 2.修正图片地址格式 3.用request.get(url)获取图片链接,并通过os操作保存到本地。 代码如下: import requests import re url = 'https://channel.jd.com/1713-3258.html' res = requests.get(url) res.e...原创 2020-02-27 11:26:14 · 1288 阅读 · 0 评论 -
爬虫(二)——用正则匹配获取信息
以爬取51job网为例,使用正则匹配方法,代码如下: import re import requests from pandas import DataFrame url = 'https://search.51job.com/list/080000,000000,0000,32,9,99,%25E5%2589%258D%25E7%25AB%25AF%25E5%25BC%2580%25E5%...原创 2020-02-27 00:27:40 · 379 阅读 · 0 评论 -
爬虫(一)——收集网页信息并导出
以51job上的前端开发职位为例,代码如下: import requests from lxml import etree from pandas import DataFrame #确定爬取网址 #以51job网址为例,?后面是后台参数,可以删掉 url = 'https://search.51job.com/list/080000,000000,0000,32,9,99,%25E5%25...原创 2020-02-26 00:21:11 · 1009 阅读 · 0 评论