- 博客(20)
- 收藏
- 关注
原创 Python-进行代理池的维护
利用python创建自己的代理池,可以自己以后使用。 初始数据 proxypool.setting # Redis数据库地址 REDIS_HOST = '127.0.0.1' # Redis端口 REDIS_PORT = 6379 # Redis密码,如无填None REDIS_PASSWORD = None REDIS_KEY = 'proxies' # 代理分数,最高为100分,最低我0分。初始分数为10分 MAX_SCORE = 100 MIN_SCORE = 0 INITIAL_SCORE
2020-08-18 10:01:09
1097
原创 Python-网络爬虫代理设置
requests http/https代理设置 import requests proxy = '120.78.225.5:3128' proxies = { 'http': 'http://' + proxy, 'https': 'https://' + proxy, } try: response = requests.get('http://httpbin.org/get', proxies=proxies) print(response.text) except r
2020-08-18 10:00:05
1687
原创 Python-极客验证码识别
简单验证码识别 import tesserocr from PIL import Image image = Image.open('PFET.jpg') # 利用 Image 对象的 convert() 方法传入参数 "L" ,即可将图片转化为灰度图像 image = image.convert('L') # 阈值默认为127 threshold = 127 table = [] for i in range(256): if i < threshold: tabl
2020-08-18 09:59:25
1114
原创 通过-Python-使用-Selenium-爬取淘宝商品
无注解版 import pymongo from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by import By from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.support.wait imp
2020-08-18 09:57:56
776
原创 Python-调用-Splash-API
render.html render.html 接口用于获取 JavaScript 渲染的页面的 HTML 代码,接口地址就是 Splash 的运行地址加此接口名称。 例如: http://0.0.0.0:8050/render.html?url=https://www.baidu.com&wait=5 http://0.0.0.0:8050 + render.html + https://www.baidu.com + wait=5 import requests url = 'h
2020-08-18 09:56:09
987
原创 Splash的简单使用
Splash Lua脚本http://localhost:8050,端口为8050 入口及返回值 function main(splash, args) splash:go("http://www.baidu.com") splash:wait(0.5) local title = splash:evaljs("document.title") return {title=title} end 通过 evaljs()方法传人 JavaSer刷脚本, 而 document.title 的执行
2020-08-18 09:55:06
5421
原创 Python-自动化库-Selenium-的使用
title: Python 自动化库 Selenium 的使用 date: 2020-04-30 15:17:03 tags: Python网络爬虫 categories: Python comments: true toc: true thumbnail: …/…/thumbnail/image16.png banner: @Author: YiHua Lee @Address: Guangdong province, China 基本使用 from selenium import webdrive.
2020-08-18 09:54:07
1047
原创 Python-网络爬虫之-Ajax-数据爬取
Ajax 概述 Ajax是利用 JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。 Ajax基本原理 发送请求 解析内容 渲染页面 查看请求 Ajax结果提取 爬取一个人微博的前面10页 分析过程 Python代码实现 from urllib.parse import urlencode import requests # 对https://m.weibo.cn/u/2830678474网页审查分析 base_url = 'https://m.
2020-08-18 09:53:16
1029
原创 Python-操作-MongoDB-数据库
MongoDB是一个存储文档型的数据库(非关系型数据库) 利用pymongo连接MongoDB import pymongo client = pymongo.MongoClient(host='localhost', port=27017) # 或 pymongo.MongoClient('mongodb://localhost:23017/') # 默认端口为:27017 指定数据库 # 指定操作test数据库 db = client.test 或 db = client['test'] 指定集合
2020-08-18 09:52:13
309
原创 Python-操作-MySQL-数据库
利用PyMySQL连接MySQL 连接数据库 import pymysql # 连接MySQL MySQL在本地运行 用户名为root 密码为123456 默认端口3306 db = pymysql.connect(host='localhost', user='root', password='123456', port=3306) # cursor()方法获得MySQL的操作游标,利用游标来执行SQL语句,其中执行方法为execute() curs
2020-08-18 09:51:02
238
原创 爬虫数据存储之文件存储
TXT 文件存储 爬取知乎上的热门话题,获取话题的问题、作者、答案,然后保存在TXT文本中 import requests from pyquery import PyQuery url = 'https://www.zhihu.com/explore' headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) '
2020-08-17 10:57:37
688
原创 pyquery-的简单使用
pyquery 的初步了解(实例引入) 简单举例 from pyquery import PyQuery as pq html = ''' <div> <ul> <li class="item-O"><a href="linkl.html">first item</a></li> <li class="item-1"><a href="link2.html">second item</a></
2020-08-17 10:56:48
241
原创 鸟哥的Linux私房菜-基础篇-第四、五章学习心得
第四章 显示日期与时间的指令 date 显示日历指令 cal 简单好用的计算器 bc 命令后接[Tab]键 [Tab]键 接在一串指令的第一个后面----命令补全 [Tab]键 接在一串指令的第二个后面----文件补全 [Tab]键 在一些字符后面接两个[Tab]键----查看这些字符开头的命令 中断目前的程序 [control]键 + [c]键 键盘输入结束 键盘输入结束(End Of File,EOF 或 End Of Input) 的意思 往前翻页 或 往后翻
2020-08-17 10:55:48
233
原创 爬虫基本库的使用之urllib库
urllib的简单使用 urllib模块是Python内置的HTTP请求模块 urllib包含模块:request模块、error模块、parse模块、robotparser模块 例子 举例1: 向指定的url发送请求,并返回服务器响应的类文件对象 response = urllib.request.urlopen('https://www.python.org') 读取文件全部内容 html = response.read() 将其他编码的字符串转换成unicode编码 print(htm
2020-08-17 10:54:26
313
原创 爬虫基本库的使用之requests库
使用requests 由于处理网页验证和Cookies时,需要写Opener和Handler来处理,为了更方便地实现这些操作,就有了更强大的库requests。requests库功能很强大。能实现Cookies、登录验证、代理设置等操作。 简单使用requests库 import requests r = requests.get('http://wwww.baidu.com/') print(type(r), r.status_code, r.text, r.cookies, sep='\n\n') G
2020-08-17 10:53:07
311
原创 Linux-常用命令
cd 命令 回到家目录 cd ~ 切换到当前目录下的dir目录 cd dir 切换到根目录 cd / 切换到到上一级目录 cd .. 切换到上二级目录 cd ../.. ls 命令 以默认方式显示当前目录文件列表 ls 显示所有文件包括隐藏文件 ls -a 显示文件属性,包括大小,日期,符号连接,是否可读写及是否可执行 ls -l 显示文件的大小,以容易理解的格式印出文件大小 (例如 1K 234M2G) ls -lh 显示文件,按照修改时间排序
2020-08-17 10:51:24
169
原创 正则表达式和python中的re模块
常用的正则匹配规则 元字符 量词 字符组 字符集 转义符 贪婪匹配 re模块使用正则表达式 举例:判断一个手机号码是否合法 不使用正则表达式 # 不使用正则表达式 phone_number = input("请输入一个11位数导入手机号码 :") if len(phone_number) == 11 \ and phone_number.isdigit() \ and (phone_number.startswith('13') o
2020-08-17 10:50:14
322
原创 XPath-的简单使用
XPath XPath是一门在XML文档中查找信息的语言,它提供了非常简洁明了的路径选择表达式。 表达式 描 述 nodename 选取此节点的所有子节点 / 从当前节点选取直接子节点 // 从当前节点选取子孙节点 . 选取当前节点 … 选取当前节点的父节点 @ 选取属性 举例1: //title[@lang='eng'] 它代表选择所有名称为title,同时属性lang的值为eng的节点 举例2:处理HTML文本 from lxml import etre
2020-08-17 10:48:06
259
原创 网络爬虫基础
HTTP基本原理 URI 全称UniformResource Identifier,即统一资源标志符,用来唯一的标识一个资源。 URL Universal Resource Locator,统一资源定位符。它是一种具体的URI,即URL可以用来标识一个资源,而且还指明了如何locate这个资源 Hypertext 网页源代码是一系列 HTML 代码,里面包含了一系列标签,如 img 显示图片,p 指定显示段落等,浏览器解析这些标签后便形成了我们平常看到的网页,而这网页的源代码HTML 就可以称作超文本(Hy
2020-08-17 10:44:57
257
原创 BeautifulSoup 的简单使用
Beautiful Soup初了解 解析工具Beautiful Soup,借助网页的结构和属性等特性来解析网页(简单的说就是python的一个HTML或XML的解析库) Beautiful Soup支持的解析器 解析器 使用方法 优势 劣势 Python标准库 BeautifulSoup(markup, " html. parser ") Python 的内 宜标准库、执行速度适中、文档容错能力强 Python 2.7.3及 Python3.2.2 之前的版本文档容错能力差
2020-08-17 10:42:11
418
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅