python爬虫
从基础到入门,爬虫书写需求,格式,实战代码,项目案例。
大大枫free
分析与记录
展开
-
利用scrapy实现对腾讯招聘岗位抓取
忙碌一周多终于算是过来,这个时间中一直想写点什么,但是又不知道写点什么,刚好前一段时间有个朋友说帮忙爬点职位信息,这不今天就试着用scrapy框架去腾讯家溜达了一圈,同时也用多线程试了下,不得不说scrapy是真快,闲话不说,干货走起!!!目标:腾讯招聘职位信息中的:名称(job_name)、类别(job_type)、职责(job_duty)、要求(job_require)、地址(job_address)、时间(job_time)要求存入MySQL数据库 和CSV文件谷歌浏览器中打开百度然后没谁的搜索原创 2020-06-13 12:49:17 · 533 阅读 · 0 评论 -
写爬虫时候遇到字题编码处理方法
最近在接到一个爬虫任务,遇到有意思的事情了,现在爬虫与反爬虫直接的斗争越来越有意思了,那些写前端的大佬们开始走心了,这就让我们这些写爬中的兄弟们有点难受了,但是呢?作为一名敲代码的,特别是搞spider的同志,我们只能与反爬做斗争想办法解决问题完成任务滴。闲话少说,开始我们今天的正题。任务需求:爬取某网站的小说,爬小说就算了吧,还要爬取指定网站的,这个就不好玩了,这个指定网站有点东西的,哎,爬这个指定网站的小说具体干啥俺也不知道,俺也不敢问,只能埋头默默的写爬虫。在爬取得过程中遇到了:** 小说中的主人原创 2020-05-28 13:18:35 · 359 阅读 · 0 评论 -
scrapy shell使用方法(十)
回顾(九)settings.py常用变量【1】settings.py中常用变量 2.1) 设置日志级别 LOG_LEVEL = '' 2.2) 保存到日志文件(不在终端输出) LOG_FILE = '' 2.3) 设置数据导出编码(主要针对于json文件) FEED_EXPORT_ENCODING = 'utf-8' 2.4) 设置User-Agent USER_AGENT = '' 2.5)原创 2020-05-19 21:36:00 · 429 阅读 · 0 评论 -
scrapy框架---带你飞向爬虫路(九)
回顾(八)系统学习出门左转一到八scrapy框架五大组件+工作流程+常用命令【1】五大组件 1.1) 引擎(Engine) 1.2) 爬虫程序(Spider) 1.3) 调度器(Scheduler) 1.4) 下载器(Downloader) 1.5) 管道文件(Pipeline) 1.6) 下载器中间件(Downloader Middlewares) 1.7) 蜘蛛中间件(Spider Middlewares) 【2】工作流程原创 2020-05-18 21:37:23 · 242 阅读 · 0 评论 -
selenium+phantomjs/chrome/firefox 的操作(八)
python爬虫学习(七)回顾selenium+phantomjs/chrome/firefox设置无界面模式(chromedriver | firefox)options = webdriver.ChromeOptions()options.add_argument('--headless')browser = webdriver.Chrome(options=options)browser.get(url)browser执行JS脚本browser.execute_script原创 2020-05-17 19:49:51 · 442 阅读 · 0 评论 -
python爬虫学习(七)
python爬虫学习(六)回顾多线程爬虫思路【1】将待爬取的URL地址存放到队列中【2】多个线程从队列中获取地址,进行数据抓取【3】注意获取地址过程中程序阻塞问题、线程锁问题 3.1) 方式一 while True: lock.acquire() if not q.empty(): url = q.get() lock.release() ... ... e原创 2020-05-15 23:05:50 · 275 阅读 · 0 评论 -
python爬虫学习(六)
python爬虫学习(五)回顾Ajax动态加载数据抓取流程【1】F12打开控制台,执行页面动作抓取网络数据包【2】抓取json文件URL地址 2.1) 控制台中 XHR :找到异步加载的数据包 2.2) GET请求: Network -> XHR -> URL 和 Query String Parameters(查询参数) 2.3) POST请求:Network -> XHR -> URL 和 Form Datajson模块【1】抓取的json原创 2020-05-14 21:55:22 · 668 阅读 · 0 评论 -
python爬虫学习(五)
python基础爬虫(五)Python爬虫基础(四)回顾requests.get()参数【1】url【2】params -> {} :查询参数 Query String【3】proxies -> {} proxies = { 'http':'http://1.1.1.1:8888', 'https':'https://1.1.1.1:8888' }【4】auth -> ('tarenacode','code_2013')【5】原创 2020-05-13 20:56:29 · 288 阅读 · 0 评论 -
python爬虫学习(三)
x# Python爬虫基础(三)Python爬虫基础(二)回顾爬取思路1、先确定是否为动态加载网站2、找URL规律3、正则表达式4、定义程序框架,补全并测试代码数据持久化 - csv import csv with open('xxx.csv','w') as f: writer = csv.writer(f) writer.writerow([]) writer.writerows([(),(),()])数据持久化 - MySQLimport pymysql# __i原创 2020-05-12 22:38:55 · 563 阅读 · 0 评论 -
python爬虫学习(四)
Python基础爬虫(三)回顾请求模块总结urllib库使用流程# 编码+拼接URL地址params = { '':'', '':''}params = urllib.parse.urlencode(params)url = baseurl + params# 请求request = urllib.request.Request(url,headers=headers)response = urllib.request.urlopen(request)html =原创 2020-05-12 22:55:24 · 2126 阅读 · 0 评论 -
python爬虫学习(二)
python基础爬虫(一) 回顾请求模块(urllib.request)req = request.Request(url,headers=headers)res = request.urlopen(req)html = res.read().decode('utf-8','ignore')with open('xxx.txt','w',encoding='utf-8') as f: f.write(html)编码模块(urllib.parse)1、urlencode({dict}原创 2020-05-10 23:43:57 · 421 阅读 · 3 评论 -
python爬虫学习(一)
python爬虫学习(一)网络爬虫概述# 1. 定义1)网络蜘蛛、网络机器人,抓取网络数据的程序2)其实就是用Python程序模仿人点击浏览器并访问网站,而且模仿的越逼真越好# 2. 爬取数据的目的1)获取大量数据,用来做数据分析2)公司项目的测试数据,公司业务所需数据# 3. 企业获取数据方式1)公司自有数据2)第三方数据平台购买(数据堂、贵阳大数据交易所)3)爬虫爬取数据# 4. Python做爬虫优势1)Python :请求模块、解析模块丰富成熟,强大的Scrapy网络原创 2020-05-10 18:48:33 · 339 阅读 · 0 评论