爬虫
文章平均质量分 60
Lujuntong
这个作者很懒,什么都没留下…
展开
-
8.14爬虫笔记2
一、封装代码 from urllib import request,parse from urllib.error import HTTPError,URLError import json from http import cookiejarclass session(): def init(self): cookie_object = cookiejar...原创 2018-08-14 22:39:18 · 313 阅读 · 0 评论 -
爬虫笔记IP代理以及 boos直聘 实例
可以去某云某宝或其他渠道购买,具体使用看自己购买商家的API文档,查看使用方法。ip_proxy.py import requests class ip_getter(object): def __init__(self): self.ip_proxy_str = get_ip_string() def update_...原创 2018-09-04 19:25:54 · 970 阅读 · 0 评论 -
爬虫练习 -- 链家
注意:请不要爬取过多信息,仅供学习。分析:业务需求分析......(此例为住房信息...) 查找相关网页信息(以链家为例) 分析URL,查找我们需要的内容,建立连接 定位数据 存储数据首先进入链家网首页,点击租房,F12检查网页,查找我们需要的信息。如图:第一页url:https://bj.lianjia.com/zufang/第二页url:https://bj....原创 2018-08-28 09:34:40 · 752 阅读 · 0 评论 -
8.24网络爬虫笔记 -- Selenium
首先下载chromedriver 将其放入Python运行环境下,然后再去pip安装selenium。最简单的结构 代码如下: from selenium import webdriver # ----------------------不打开浏览器窗口------------------------- option_chrome = webdri...原创 2018-08-28 09:33:06 · 210 阅读 · 0 评论 -
8.23爬虫笔记5(scrapy)
一、Scrapy介绍Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛 Scrapy 使用了 Twisted(其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求 官网:http://doc.scrapy.org/en/latest 中文维...原创 2018-08-23 21:31:42 · 275 阅读 · 0 评论 -
python爬虫-常见反爬虫机制与应对方法
数据头User-Agent反爬虫机制解析:当我们使用浏览器访问网站的时候,浏览器会发送一小段信息给网站,我们称为Request Headers,在这个头部信息里面包含了本次访问的一些信息,例如编码方式,当前地址,将要访问的地址等等。这些信息一般来说是不必要的,但是现在很多网站会把这些信息利用起来。其中最常被用到的一个信息,叫做“User-Agent”。网站可以通过User-Agent来判断用户...原创 2018-08-22 22:49:57 · 25971 阅读 · 1 评论 -
8.22爬虫笔记4
爬取今日头条图集 进入今日头条首页:https://www.toutiao.com/ 步骤:1、查看网页,查找我们需要的URL,分析URL 2、获取网页内容,分析内容 3、定位我们需要的内容 4、将数据存储在搜素框 输入要搜索的内容(例如:街拍),然后选择图集,F12检查,...原创 2018-08-22 19:10:08 · 200 阅读 · 0 评论 -
8.13 爬虫笔记1
爬虫的过程 1.首先需要了解业务需求 2.根据需求,寻找网站 3.将网站数据获取到本地 (可以通过urllib,requests等包) 4.定位数据(re xpath css json等) 5.存储数据(mysql redis 文件格式)一:简单的爬虫结构 百度html页面 (1、爬取内容) from urllib import request ...原创 2018-08-13 22:12:03 · 226 阅读 · 0 评论 -
8.15爬虫笔记3
分析雪球网 https://xueqiu.com/#/property第一次进去后,第一次Ajax请求得到的是 如下图所示的 max_id=-1, count=10。然后往下拉,第二次Ajax请求,如下图 发现URL里面就max_id 和count不同,max_id为前一次Ajax的最后一条数据的id,以后的每次请求都是count=15,所以需要对url进行拼接url拼接如下...原创 2018-08-15 21:42:10 · 205 阅读 · 0 评论 -
cookie 和 session 的区别
Session是在服务端保存的一个数据结构,用来跟踪用户的状态,这个数据可以保存在集群、数据库、文件中; Cookie是客户端保存用户信息的一种机制,用来记录用户的一些信息,也是实现Session的一种方式。cookie 和session 的区别: 1、cookie不是很安全,别人可以分析存放在本地的COOKIE并进行COOKIE欺骗 考虑到安全应当使用session。 2、sessi...原创 2018-11-13 15:21:01 · 178 阅读 · 0 评论