aknoob-CSDN博客

原创 Python-进行代理池的维护

利用python创建自己的代理池，可以自己以后使用。初始数据proxypool.setting# Redis数据库地址REDIS_HOST = '127.0.0.1'# Redis端口REDIS_PORT = 6379# Redis密码，如无填NoneREDIS_PASSWORD = NoneREDIS_KEY = 'proxies'# 代理分数，最高为100分，最低我0分。初始分数为10分MAX_SCORE = 100MIN_SCORE = 0INITIAL_SCORE

2020-08-18 10:01:09 525

原创 Python-网络爬虫代理设置

requestshttp/https代理设置import requestsproxy = '120.78.225.5:3128'proxies = { 'http': 'http://' + proxy, 'https': 'https://' + proxy,}try: response = requests.get('http://httpbin.org/get', proxies=proxies) print(response.text)except r

2020-08-18 10:00:05 1065

原创 Python-极客验证码识别

简单验证码识别import tesserocrfrom PIL import Imageimage = Image.open('PFET.jpg')# 利用 Image 对象的 convert() 方法传入参数 "L" ，即可将图片转化为灰度图像image = image.convert('L')# 阈值默认为127threshold = 127table = []for i in range(256): if i < threshold: tabl

2020-08-18 09:59:25 536

原创通过-Python-使用-Selenium-爬取淘宝商品

无注解版import pymongofrom selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.wait imp

2020-08-18 09:57:56 225

原创 Python-调用-Splash-API

render.htmlrender.html 接口用于获取 JavaScript 渲染的页面的 HTML 代码，接口地址就是 Splash 的运行地址加此接口名称。例如：http://0.0.0.0:8050/render.html?url=https://www.baidu.com&wait=5http://0.0.0.0:8050 + render.html + https://www.baidu.com + wait=5import requestsurl = 'h

2020-08-18 09:56:09 386

原创 Splash的简单使用

Splash Lua脚本http://localhost:8050，端口为8050入口及返回值function main(splash, args) splash:go("http://www.baidu.com") splash:wait(0.5) local title = splash:evaljs("document.title") return {title=title}end通过 evaljs()方法传人 JavaSer刷脚本，而 document.title 的执行

2020-08-18 09:55:06 4737

原创 Python-自动化库-Selenium-的使用

title: Python 自动化库 Selenium 的使用date: 2020-04-30 15:17:03tags: Python网络爬虫categories: Pythoncomments: truetoc: truethumbnail: …/…/thumbnail/image16.pngbanner:@Author: YiHua Lee @Address: Guangdong province, China基本使用from selenium import webdrive.

2020-08-18 09:54:07 585

原创 Python-网络爬虫之-Ajax-数据爬取

Ajax 概述Ajax是利用 JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。Ajax基本原理发送请求解析内容渲染页面查看请求Ajax结果提取爬取一个人微博的前面10页分析过程Python代码实现from urllib.parse import urlencodeimport requests# 对https://m.weibo.cn/u/2830678474网页审查分析base_url = 'https://m.

2020-08-18 09:53:16 598

原创 Python-操作-MongoDB-数据库

MongoDB是一个存储文档型的数据库（非关系型数据库）利用pymongo连接MongoDBimport pymongoclient = pymongo.MongoClient(host='localhost', port=27017)# 或 pymongo.MongoClient('mongodb://localhost:23017/')# 默认端口为:27017指定数据库# 指定操作test数据库db = client.test 或 db = client['test']指定集合

2020-08-18 09:52:13 189

原创 Python-操作-MySQL-数据库

利用PyMySQL连接MySQL连接数据库import pymysql# 连接MySQL MySQL在本地运行用户名为root 密码为123456 默认端口3306db = pymysql.connect(host='localhost', user='root', password='123456', port=3306)# cursor()方法获得MySQL的操作游标，利用游标来执行SQL语句，其中执行方法为execute()curs

2020-08-18 09:51:02 144

原创爬虫数据存储之文件存储

TXT 文件存储爬取知乎上的热门话题，获取话题的问题、作者、答案，然后保存在TXT文本中import requestsfrom pyquery import PyQueryurl = 'https://www.zhihu.com/explore'headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) '

2020-08-17 10:57:37 561

原创 pyquery-的简单使用

pyquery 的初步了解（实例引入）简单举例from pyquery import PyQuery as pqhtml = '''<div><ul><li class="item-O"><a href="linkl.html">first item</a></li><li class="item-1"><a href="link2.html">second item</a></

2020-08-17 10:56:48 138

原创鸟哥的Linux私房菜-基础篇-第四、五章学习心得

第四章显示日期与时间的指令date显示日历指令cal简单好用的计算器bc命令后接[Tab]键[Tab]键接在一串指令的第一个后面----命令补全[Tab]键接在一串指令的第二个后面----文件补全[Tab]键在一些字符后面接两个[Tab]键----查看这些字符开头的命令中断目前的程序[control]键 + [c]键键盘输入结束键盘输入结束（End Of File,EOF 或 End Of Input) 的意思往前翻页或往后翻

2020-08-17 10:55:48 146

原创爬虫基本库的使用之urllib库

urllib的简单使用urllib模块是Python内置的HTTP请求模块urllib包含模块：request模块、error模块、parse模块、robotparser模块例子举例1：向指定的url发送请求，并返回服务器响应的类文件对象response = urllib.request.urlopen('https://www.python.org')读取文件全部内容html = response.read()将其他编码的字符串转换成unicode编码print(htm

2020-08-17 10:54:26 180

原创爬虫基本库的使用之requests库

使用requests由于处理网页验证和Cookies时，需要写Opener和Handler来处理，为了更方便地实现这些操作，就有了更强大的库requests。requests库功能很强大。能实现Cookies、登录验证、代理设置等操作。简单使用requests库import requestsr = requests.get('http://wwww.baidu.com/')print(type(r), r.status_code, r.text, r.cookies, sep='\n\n')G

2020-08-17 10:53:07 217

原创 Linux-常用命令

cd 命令回到家目录cd ~切换到当前目录下的dir目录cd dir切换到根目录cd /切换到到上一级目录cd ..切换到上二级目录cd ../..ls 命令以默认方式显示当前目录文件列表ls显示所有文件包括隐藏文件ls -a显示文件属性，包括大小，日期，符号连接，是否可读写及是否可执行ls -l显示文件的大小，以容易理解的格式印出文件大小 (例如 1K 234M2G)ls -lh显示文件，按照修改时间排序

2020-08-17 10:51:24 84

原创正则表达式和python中的re模块

常用的正则匹配规则元字符量词字符组字符集转义符贪婪匹配re模块使用正则表达式举例：判断一个手机号码是否合法不使用正则表达式# 不使用正则表达式phone_number = input("请输入一个11位数导入手机号码 :")if len(phone_number) == 11 \ and phone_number.isdigit() \ and (phone_number.startswith('13') o

2020-08-17 10:50:14 235

原创 XPath-的简单使用

XPathXPath是一门在XML文档中查找信息的语言，它提供了非常简洁明了的路径选择表达式。表达式描述nodename选取此节点的所有子节点/从当前节点选取直接子节点//从当前节点选取子孙节点.选取当前节点…选取当前节点的父节点@选取属性举例1：//title[@lang='eng'] 它代表选择所有名称为title，同时属性lang的值为eng的节点举例2：处理HTML文本from lxml import etre

2020-08-17 10:48:06 146

原创网络爬虫基础

HTTP基本原理URI全称UniformResource Identifier，即统一资源标志符，用来唯一的标识一个资源。URLUniversal Resource Locator，统一资源定位符。它是一种具体的URI，即URL可以用来标识一个资源，而且还指明了如何locate这个资源Hypertext网页源代码是一系列 HTML 代码，里面包含了一系列标签，如 img 显示图片，p 指定显示段落等，浏览器解析这些标签后便形成了我们平常看到的网页，而这网页的源代码HTML 就可以称作超文本（Hy

2020-08-17 10:44:57 156

原创 BeautifulSoup 的简单使用

Beautiful Soup初了解解析工具Beautiful Soup，借助网页的结构和属性等特性来解析网页(简单的说就是python的一个HTML或XML的解析库)Beautiful Soup支持的解析器解析器使用方法优势劣势Python标准库BeautifulSoup(markup, " html. parser ")Python 的内宜标准库、执行速度适中、文档容错能力强Python 2.7.3及 Python3.2.2 之前的版本文档容错能力差

2020-08-17 10:42:11 338

李亦华的博客