2.3 案例5:爬取某糗事内容

课前说明:本章节请求的 url 部分用 ** 代替 爬虫分三个模块:        1、请求模块:用于构造请求体,并将请求到的网页(数据)返回给解析模块;        2、解析模块:用于提取数据(本章节用xpath提取网页中的数据),并返回数据给存储模块;        3、存储模块:将...

2019-01-15 16:02:17

阅读数 24

评论数 0

2.2 案例4:爬取网页图片并下载到本地

课前说明:本章节请求的 url 部分用 ** 代替 本章节需要掌握的知识点: 1、用 js 代码模拟下拉动作:     document.documentElement.scrollTop= %d   %d表示下拉的幅度 2、如何使用 redis 数据库进行数据存储 爬虫分三个模块: ...

2019-01-14 19:08:19

阅读数 53

评论数 0

2.1 案例3:爬取某读书网站

课前说明:本章节请求的 url 部分用 ** 代替 本章节需要掌握的知识点: 1、无界面浏览器的使用:     driver = r"/home/**/Downloads/chromedriver"     opt = webdriver.ChromeOp...

2019-01-12 14:43:01

阅读数 40

评论数 3

2.0 案例2:爬取房源信息以及分析房价

课前说明:本章节请求的 url 部分用 ** 代替 本章节需要掌握的知识点:         1、如何用 xpath 解析数据;         2、如何用 csv 存储数据(注:由于字典是无序的,所以写入csv时,表头可能跟内容搭配不对,需要手动调整表头信息);         3、对c...

2019-01-10 21:32:45

阅读数 65

评论数 0

1.9 案例一

课前说明:本章节请求的 url 部分用 ** 代替 本章节需要掌握的知识点: request.urlretrieve()  # urlretrieve函数是用来下载资源的函数,第一个参数是请求的 url,第二个参数是要保存的文件名 爬虫分三个模块:        1、请求模块:用于构造请求...

2019-01-09 22:13:55

阅读数 46

评论数 0

1.8 selenium工具

课前说明:本章节请求的 url 部分用 ** 代替 本章节需要掌握的知识点: selenium工具是使用。 介绍:        selenium是一种用于web程序测试的工具,selenium测试的代码可以直接运行在浏览器中,就像真正的用户操作一样。 在写python爬虫的时候,主要是...

2019-01-08 18:53:05

阅读数 35

评论数 0

1.7认识网页解析工具

课前说明:        网页解析工具有很多种,例如:re、xpath、jsonpath、bs4等等,本章节简单介绍一下re和xpath的用法,其它解析工具自行学习O(∩_∩)O哈!  本章节需要掌握的知识点: re正则的使用 xpath的使用 re 详解: import re #...

2019-01-07 21:50:52

阅读数 35

评论数 0

1.6IP代理请求

课前说明:本章节请求的 url 部分用 ** 代替  本章节需要掌握的知识点: request.ProxyHandler()   # 构建代理服务器对象   参数为一个字典 from urllib import request url = 'https://www.bai**.com/...

2019-01-06 20:21:36

阅读数 44

评论数 0

1.5会话处理

课前说明:本章节请求的 url 部分用 ** 代替  本章节需要掌握的知识点: cookiejar     # 处理cookie的时候,需要把cookie信息存入一个对象,这个工具就是将cookie进行初始化 request.HTTPCookieProcessor      # 这个是HTT...

2019-01-05 21:08:57

阅读数 17

评论数 0

1.4url带中文的请求

本章节需要掌握的知识点: urllib中的parse parse.quote()    # 对带中文的参数进行编码 parse.unquote()   # 解码 from urllib import request, parse # 请求的url url = 'https://baik...

2019-01-05 20:34:17

阅读数 20

评论数 0

1.3简单的post请求

课前说明:本章节请求的 url 部分用 ** 代替 1、打开网页 https://fanyi.**.com 2、右击 -> 检查 -> 找到network点击 ->输入需要翻译的单词happy 3、点击XHR -&am...

2019-01-04 19:57:30

阅读数 41

评论数 0

1.2我的第一个反爬

反爬:【用户代理】web开发中,同一个url可以对应若干个不同的页面,后台可以根据前端发起的请求头中的用户代理的不用,决定响应给前端什么样的数据。如果用户代理在判断的时候检测到不是我们制定的那几个用户代理,就可以拒绝客户的访问从而达到反爬的目的。 针对这种反爬可以通过请求头,请求头中设置用户代理...

2019-01-03 18:54:51

阅读数 12

评论数 0

1.1使用urllib发起请求

# 导入urllib from urllib import request # 请求地址url url = 'http://www.baidu.com/' # 构建请求对象 response = request.Request(url=url) # 返回响应对象 result = reque...

2019-01-03 17:29:36

阅读数 17

评论数 0

百度学习记录

python迭代器和生成器 https://www.cnblogs.com/deeper/p/7565571.html python类方法、静态方法、类方法的区别 https://www.cnblogs.com/wcwnina/p/8644892.html python查看内存地址网站 www....

2018-12-27 19:06:33

阅读数 16

评论数 0

django必备知识点

web登陆原理与用户系统实现: https://www.jianshu.com/p/be586abda239 django的csrf防御机制: https://www.jianshu.com/p/a178f08d9389 django实现restful API : https://www.cnbl...

2018-11-28 13:56:31

阅读数 50

评论数 0

git出现fatal: refusing to merge unrelated histories错误的解决方案

出现该错误的原因主要是因为远程库有README这个文件,而本地库没有该文件。 出现fatal: refusing to merge unrelated histories这个错误时, 运行: git pull origin master –allow-unrelated-histories ...

2018-10-28 18:59:24

阅读数 87

评论数 0

python-urllib库学习笔记

  import urllib.request, urllib.parse ''' urllib常用的请求语句 ''' url = '' # 发送请求 res = urllib.request.urlopen(url=url) # 读取请求到的内容 res.read().decode('utf...

2018-10-27 15:39:05

阅读数 55

评论数 0

JQuery学习笔记

jQuery语法 $(this).hide() // 隐藏当前元素 $("p").hide() // 隐藏所有<p>元素 $("p.test").hide() // 隐藏所有c...

2018-10-21 11:51:38

阅读数 26

评论数 0

linux下安装Python、redis

Linux下安装Python3: 1. 准备环境 yum install wget xz sqlite-devel zlib-devel bzip2-devel openssl-devel ncurses-devel readline-devel gcc-c++ gcc -y 2. 下载p...

2018-09-11 21:27:01

阅读数 128

评论数 0

MongoDB与MySQL笔记

数据库操作 1、创建数据库 MongoDB: use student 注意:如果数据库不存在则创建,否则则切换到student数据库中 MySQL: create database student charset=utf8; 2、删除数据库 MongoDB: ...

2018-08-30 21:06:16

阅读数 60

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭