Hathaway的博客

非典型

8.1 淘宝实战selinum代码完整

案例三:爬取淘宝) 1 mongodb打开方法之前讲过。+++ 2 如果用requests的方式需要准备一定量的ip,所以此次采用selinum方式 3 注意此次使用pyquery解析,和前端挂钩。 -----------------------------------------------...

2018-02-02 22:04:26

阅读数 2178

评论数 0

8 使用自动化神器Selenium爬取动态网页(案例三:爬取淘宝)

Selenium 是一个用于浏览器自动化测试的框架,可以用来爬取任何网页上看到的数据。 selinim,京东淘宝反爬严重 http://http://npm.taobao.org/mirrors/chromedriver/2.33/ 环境变量设置:我的电脑-右键属...

2018-02-02 22:00:35

阅读数 858

评论数 0

9.5 Scrapy项目管道爬取58实战代码

spider文件: yield函数 ,这个函数没有结束,还可以继续返回,这里千万不能return,return就结束了1条数据。 这才yield出去到管道,才管道开始了。 yield item是yield到管道,yield request是yield到调度器。 管道文件pipline.py...

2018-02-02 21:58:13

阅读数 355

评论数 0

9.3 scrapy选择器的用法,css,xpath,正则。pyquery

scrapy至少有三种选择器,很大很多。理论上学会两种就够用了。 项目组都用一个选择器最好了。 一定要学会正则表达式。 第一种介绍CSS选择器 标签成对出现。 div,p不管div和p有什么关系,都搜索出来 div p 选择div下的所有p元素可以是父子关系...

2018-02-02 21:57:40

阅读数 1128

评论数 0

9.4 Scrapy的项目管道

这些组件最重要的思路就是拦截,即过滤 item管道:作用一:入库 校验:一是可以在管道,但主要是在item定义字段校验 管道是什么 Item管道(Item Pipeline): 主要负责处理有蜘蛛从网页中抽取的Item,主要任务是清洗、验证和存储数据。当页面被蜘蛛解析后,将被发送...

2018-02-02 21:54:36

阅读数 250

评论数 0

9.2 scrapy安装及基本使用

https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 下载即可。 安装完方法2 后需要回到方法1继续安装,不是说方法2完成后,scrapy就安装好了。 报错情况下安装下面的twisted而不是上面lxml Scrapy爬虫的使用 一个基本的爬...

2018-02-02 21:47:53

阅读数 187

评论数 0

9.1 爬虫工程师及Scrapy框架初窥

蜘蛛的作用是进行各种数据匹配

2018-02-02 21:47:05

阅读数 132

评论数 0

9.5 58同城scrapy爬取代码示例及存入Mongodb中

案例:爬取58同城 爬取58同城步骤如下: - 在命令行输入 scrapy startproject city58,使用cd city58进入项目目录,使用scrapy genspider city58_test 58.com生成爬虫 访问58同城网站,打开开发者工具,查看elements...

2018-02-02 21:37:13

阅读数 362

评论数 0

9.6 笔记:scrapy爬取的数据存入MySQL,MongoDB

使用python:2.7.12 一、MongoDB 一个小例子 1 2 1.spider:dmoz_item.py from dmoz.items import DmozItem class DmozItemSpider(scrapy.Spider): na...

2018-02-02 21:28:31

阅读数 271

评论数 0

6 浏览器抓包及headers设置(案例一:抓取知乎) jason格式

翻页后url不变 今日头条url也没有变化翻页 左侧多了 chorm中josonview插件 所以加入不一样的请求头:headers http://www.zhihu.com/api/v4/people/112 根据经验把api删掉即可打开这个链接...

2018-02-01 17:11:48

阅读数 979

评论数 0

5 pandas报存数据

with open 方法 for 循环写入 点write 一译中文官方文档:http://python.usyiyi.cn/ 爬取《小王子》豆瓣短评的数据,并把数据保存为本地的excel表格 import ...

2018-02-01 17:09:23

阅读数 162

评论数 0

4 使用xpath解析豆瓣短评

建议用xpath不用beatifulsoup 第二种手写xpath 完整代码 import requests from lxml import etree url ='https://movie.do...

2018-02-01 17:06:57

阅读数 242

评论数 0

3 使用requests爬取豆瓣点评及爬取网页通用框架完整代码

三个箭头代表在python环境下 pip list 首先分析是否是javascript加载 另一种方法是查看网站源代码 timeout=20 是超时等待时间 我们所做的就是把url放进去红圈部分。...

2018-02-01 17:02:15

阅读数 204

评论数 0

7.1 python拉勾网实战并保存到mongodb

拉钩网实战 爬取拉勾网有关“爬虫”的职位信息,并把爬取的数据存储在MongoDB数据库中 首先前往拉勾网“爬虫”职位相关页面确定网页的加载方式是JavaScript加载通过谷歌浏览器开发者工具分析和寻找网页的真实请求,确定真实数据在position.Ajax开头的链接里,请求方式是PO...

2018-02-01 16:58:18

阅读数 570

评论数 0

7 数据库入库及拉钩网站爬取及mogodb及可视化安装

mongodb安装链接:https://zhuanlan.zhihu.com/p/29986675 更改命令路径 出现错误时可以关闭电脑删除lock文件即可。然后控制面板启动mongodb服务。 mogodb在pycharm中的使用 操作数据库的简单实验代码通用代码...

2018-02-01 16:55:38

阅读数 148

评论数 0

2.2 urllib和requests库书写代码以及完整豆瓣当页影评爬取代码

import urllib.request #导入urllib.request包和库 f = urllib.request.urlopen('http://www.baidu.com') #打开网址,返回一个类文件对象 f.read(500) #打印前500字符 print(f.read(5...

2018-01-31 01:07:54

阅读数 158

评论数 0

2 初始爬虫

创建第一个案例,一般用第三方库和内置库 -urllib库 -requests库 aikspath (通用的不可能像上面这么简单) 用的是from 什么 import 什么 p标签,class属性 beautifulsoup介绍:h...

2018-01-31 01:03:55

阅读数 122

评论数 0

1 python爬虫-什么是爬虫

网页组成:html 骨架,css这个页面的衣服是什么颜色的,js动态执行语言 1 cookies 反爬会用到,告诉服务器前后页面其实是同一个人登陆 通用的网络爬虫框架 四种 如何编写爬虫,架构三大步 urllib 和requests 两个重要的库 ps:造数网站可...

2018-01-30 23:12:40

阅读数 617

评论数 0

leetcode sql题目

1 # Write your MySQL query statement below select max(salary) as SecondHighestSalary from Employee where salary not in (select max(salary) from ...

2018-01-11 17:20:00

阅读数 218

评论数 0

python3爬取新浪新闻文章内容代码

import pandas as pd import requests import json from bs4 import BeautifulSoup from datetime import datetime import re #当页跳转url url = 'http://api.rol...

2018-01-09 22:30:47

阅读数 966

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭