python爬虫(包含框架)
文章平均质量分 92
爬虫实战
平常心19-3-21
一起学习,因为渴望明天
展开
-
scrapy模拟登陆github
# -*- coding: utf-8 -*-import scrapyimport reclass GithubSpider(scrapy.Spider): name = 'github' allowed_domains = ['github.com'] start_urls = ['https://github.com/login'] def pars...原创 2019-05-05 09:15:45 · 317 阅读 · 0 评论 -
Scrapy框架爬取苏宁图书信息
# -*- coding: utf-8 -*-import scrapyfrom SNBook.items import SnbookItemimport reclass SnBookSpider(scrapy.Spider): name = 'sn_book' allowed_domains = ['suning.com'] start_urls = ['ht...原创 2019-05-05 09:11:47 · 571 阅读 · 0 评论 -
Scrapy框架爬取阳光政务平台数据
# -*- coding: utf-8 -*-import scrapyfrom yangguang.items import YangguangItemfrom yangguang.settings import MONGO_HOSTclass YgSpider(scrapy.Spider): name = 'yg' allowed_domains = ['sun076...原创 2019-05-05 09:10:19 · 508 阅读 · 0 评论 -
Scrapy框架爬取腾讯招聘信息
# -*- coding: utf-8 -*-import scrapyfrom tencent.items import TencentItemclass HrSpider(scrapy.Spider): name = 'hr' allowed_domains = ['tencent.com'] start_urls = ['http://hr.tencent.c...原创 2019-05-05 09:07:42 · 221 阅读 · 0 评论 -
Python——Scrapy框架搭建与创建项目
今天分享一下Scrapy爬虫框架的安装过程。所需环境python3.x配置好pip环境变量安装好pycharm(方便使用)安装步骤1.安装lxml命令: pip install lxml我事先已经安装好了2.安装win32api命令:pip install win32api3.安装twisted下载地址:https://pypi.org/simple/twiste...原创 2019-03-29 10:27:47 · 792 阅读 · 0 评论 -
Python爬取前程无忧大数据57000条详细信息看看你到底适合什么?(requests请求-Xpath处理-csv存储)
前程无忧大数据网址:https://search.51job.com/list/000000,000000,0000,00,9,99,%E5%A4%A7%E6%95%B0%E6%8D%AE,2,1.html入口获取所有的大数据相关岗位招聘信息。如从多个招聘网站获取更多招聘信息更好。提取数据项至少包括以下字段:(1)职位名称(岗位名称)、公司名称、 工作地点、薪资(底薪-上限)、发布时间(月-...原创 2019-06-11 18:43:49 · 2256 阅读 · 5 评论 -
python爬取前程无忧招聘网站信息(requests+bs4+xlwt)
import requestsfrom bs4 import BeautifulSoupimport xlwtheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/53...原创 2019-05-12 21:56:51 · 1572 阅读 · 2 评论 -
python爬取前程无忧招聘信息(urllib正则+xlwt)
import urllib.requestimport reimport xlwtdef get_content(page): url='https://search.51job.com/list/120200,000000,0000,00,9,99,%25E5%25A4%25A7%25E6%2595%25B0%25E6%258D%25AE,2,'+str(page)+'.html'...原创 2019-05-12 21:53:32 · 408 阅读 · 0 评论 -
爬取前程无忧招聘信息存入Mysql数据库(Requests+Xpath+PyMysql)
今天我们抓取的信息有:职位名,公司名,工作地点和薪资并保存至数据库中1.我们先连接数据库建表import pymysqldef create_table(): db = pymysql.connect(host='localhost',db='qianchengwuyou',user='root',password='wgy@666666',charset='utf8') ...原创 2019-05-05 13:33:01 · 1651 阅读 · 2 评论 -
python爬虫实战——前程无忧(requests+xpath+csv)
源码奉上import requestsfrom lxml import etreeimport csvimport pymysql#获取请求def get_response(url): headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Ge...原创 2019-04-16 14:32:54 · 1241 阅读 · 1 评论 -
PythonScrapy框架实战(一)爬取腾讯招聘网信息
今天我们来通过Scrapy爬取腾讯招聘网的信息网站地址:https://hr.tencent.com/position.php拿到一个url我们要先看,我们所需要的信息是否在这个url中。F12查看Elements.找到我们所需要的内容。点击Network——response中查找看看有没有我们所需要的内容我们需要的内容是有的,所以url就是这个了。下面我们开始爬。创建scrap...原创 2019-03-30 14:05:33 · 589 阅读 · 0 评论 -
Python——Scrapy框架之Logging模块的使用
logging模块的使用Scrapysettings中设置LOG_lEVEL=“WARNING”setting中设置LOG_FILE="./.log"#设置日志保存位置,设置后终端不会显示日志内容import logging实例化logger的方式在任何文件中使用Logger输出内容普通项目中import logging logging,basicConfig(…)#设...原创 2019-03-30 11:48:16 · 390 阅读 · 0 评论 -
爬虫入门之错误总结(二)保存数据之间出现空行以及设置csv文件标题行
经过之前的两个爬虫案例学习,相信大家对爬虫已经有了一个非常清晰的认识。前面的爬虫教程主要是通过requests,etree,csv来编写爬虫,后续也会更新一些新的爬虫内容,以及通过Scrapy框架来写的爬虫。从今天开始,我会不定期的更新,写爬虫时遇到的坑以及细节问题。我,解决了这些问题之后就会让爬虫看起来更加舒服。今天我们主要来解决一下,我们保存的数据之间出现空行以及设置数据标题行的问题一、...原创 2019-03-22 19:22:36 · 1055 阅读 · 0 评论 -
爬虫入门之错误总结(一)存入CSV文件乱码
经过之前的两个爬虫案例学习,相信大家对爬虫已经有了一个非常清晰的认识。前面的爬虫教程主要是通过requests,etree,csv来编写爬虫,后续也会更新一些新的爬虫内容,以及通过Scrapy框架来写的爬虫。从今天开始,我会不定期的更新,写爬虫时遇到的坑以及细节问题。我,解决了这些问题之后就会让爬虫看起来更加舒服。今天我们主要来解决一下 存入CSV文件出现乱码的解决办法。当我们把爬虫写完...原创 2019-03-22 18:59:51 · 1461 阅读 · 3 评论 -
python爬虫知识点归纳(二)Requests请求小技巧
今天来介绍几个requests的小技巧。1**.当我们访问的连接为非私密连接时,get请求中添加参数verify即可访问**(会报警告,可忽略)就像这种情况如果我们直接通过get请求对网页进行请求会报错。在get中参加参数verify=false就可以了。2.get请求设置超时(配合和try except使用)response = requests.get(url,timeout...原创 2019-03-26 13:12:16 · 398 阅读 · 0 评论 -
Python爬虫入门案例(二)电影票房数据库爬取(request+XPath+csv)
大家学完第一个案例爬取豆瓣电影数据之后,对爬虫的基本概念以及流程有了大体的了解。其实我个人认为,爬虫的流程都是一样的,只不过方法不同而已。今天我们就来学习第二个案例,爬取电影票房数据库中的电影数据信息。网站地址:http://58921.com/下面就开始爬取。大概分为三步;一:获取网页响应二:获取网页所需内容三:保存数据1.获取相应。获取相应的方式与第一个案例一致,直接上代码。...原创 2019-03-21 17:26:20 · 5542 阅读 · 5 评论 -
python爬虫入门案例(三)保存图片、视频等文件
今天我们来学习一个简单的案例,爬取百度的logo图片并保存到本地,话不多说直接开撸。我们打开百度——>右击百度的logo——>选择复制图片地址现在,我们已经有了图片的链接,我们只需通过一个requests的get请求即可获取图片response = requests.get("https://www.baidu.com/img/bd_logo1.png?where=super"...原创 2019-03-25 09:30:33 · 2043 阅读 · 1 评论 -
python爬虫知识点归纳(一)获取登录后页面的三种方式
我们在写爬虫时,有些网页是需要登录后才可以查看到的,按照我们之前直接通过requests的get请求是行不通的。一下提供三种解决方法:先登录网页,添加headers中的cookies键,值为cookie字符串在请求方式中添加cookies参数,接受字典形式的cookie,字典形式的键是cookie的name,值是cookie的值实例化session,使用session发送post请求,再...原创 2019-03-24 21:02:09 · 3044 阅读 · 0 评论 -
Python爬虫入门案例(一)豆瓣电影Top250爬取(request+XPath+csv)
豆瓣电影top250是学习爬虫很好的入门案例。学习爬虫,首先我们应该清楚爬虫的流程。一、流程分析1.访问网页, 获取网页回应(response)2.分析源码结构,通过xpath或其他解析方法获得所需的相应信息内容。3.通过csv方法将获取的内容存入文件中(新手可以先存入txt文件,这种方法比较简单)现在我们就开始爬取豆瓣电影。二、代码实现与思路讲解设置headers,设置编码解析格...原创 2019-03-21 09:09:19 · 4635 阅读 · 3 评论