自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

李亦华的博客

Repetition is the mother of learning.

  • 博客(20)
  • 收藏
  • 关注

原创 Python-进行代理池的维护

利用python创建自己的代理池,可以自己以后使用。 初始数据 proxypool.setting # Redis数据库地址 REDIS_HOST = '127.0.0.1' # Redis端口 REDIS_PORT = 6379 # Redis密码,如无填None REDIS_PASSWORD = None REDIS_KEY = 'proxies' # 代理分数,最高为100分,最低我0分。初始分数为10分 MAX_SCORE = 100 MIN_SCORE = 0 INITIAL_SCORE

2020-08-18 10:01:09 1097

原创 Python-网络爬虫代理设置

requests http/https代理设置 import requests proxy = '120.78.225.5:3128' proxies = { 'http': 'http://' + proxy, 'https': 'https://' + proxy, } try: response = requests.get('http://httpbin.org/get', proxies=proxies) print(response.text) except r

2020-08-18 10:00:05 1687

原创 Python-极客验证码识别

简单验证码识别 import tesserocr from PIL import Image image = Image.open('PFET.jpg') # 利用 Image 对象的 convert() 方法传入参数 "L" ,即可将图片转化为灰度图像 image = image.convert('L') # 阈值默认为127 threshold = 127 table = [] for i in range(256): if i < threshold: tabl

2020-08-18 09:59:25 1114

原创 通过-Python-使用-Selenium-爬取淘宝商品

无注解版 import pymongo from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by import By from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.support.wait imp

2020-08-18 09:57:56 776

原创 Python-调用-Splash-API

render.html render.html 接口用于获取 JavaScript 渲染的页面的 HTML 代码,接口地址就是 Splash 的运行地址加此接口名称。 例如: http://0.0.0.0:8050/render.html?url=https://www.baidu.com&wait=5 http://0.0.0.0:8050 + render.html + https://www.baidu.com + wait=5 import requests url = 'h

2020-08-18 09:56:09 987

原创 Splash的简单使用

Splash Lua脚本http://localhost:8050,端口为8050 入口及返回值 function main(splash, args) splash:go("http://www.baidu.com") splash:wait(0.5) local title = splash:evaljs("document.title") return {title=title} end 通过 evaljs()方法传人 JavaSer刷脚本, 而 document.title 的执行

2020-08-18 09:55:06 5421

原创 Python-自动化库-Selenium-的使用

title: Python 自动化库 Selenium 的使用 date: 2020-04-30 15:17:03 tags: Python网络爬虫 categories: Python comments: true toc: true thumbnail: …/…/thumbnail/image16.png banner: @Author: YiHua Lee @Address: Guangdong province, China 基本使用 from selenium import webdrive.

2020-08-18 09:54:07 1047

原创 Python-网络爬虫之-Ajax-数据爬取

Ajax 概述 Ajax是利用 JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。 Ajax基本原理 发送请求 解析内容 渲染页面 查看请求 Ajax结果提取 爬取一个人微博的前面10页 分析过程 Python代码实现 from urllib.parse import urlencode import requests # 对https://m.weibo.cn/u/2830678474网页审查分析 base_url = 'https://m.

2020-08-18 09:53:16 1029

原创 Python-操作-MongoDB-数据库

MongoDB是一个存储文档型的数据库(非关系型数据库) 利用pymongo连接MongoDB import pymongo client = pymongo.MongoClient(host='localhost', port=27017) # 或 pymongo.MongoClient('mongodb://localhost:23017/') # 默认端口为:27017 指定数据库 # 指定操作test数据库 db = client.test 或 db = client['test'] 指定集合

2020-08-18 09:52:13 309

原创 Python-操作-MySQL-数据库

利用PyMySQL连接MySQL 连接数据库 import pymysql # 连接MySQL MySQL在本地运行 用户名为root 密码为123456 默认端口3306 db = pymysql.connect(host='localhost', user='root', password='123456', port=3306) # cursor()方法获得MySQL的操作游标,利用游标来执行SQL语句,其中执行方法为execute() curs

2020-08-18 09:51:02 238

原创 爬虫数据存储之文件存储

TXT 文件存储 爬取知乎上的热门话题,获取话题的问题、作者、答案,然后保存在TXT文本中 import requests from pyquery import PyQuery url = 'https://www.zhihu.com/explore' headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) '

2020-08-17 10:57:37 688

原创 pyquery-的简单使用

pyquery 的初步了解(实例引入) 简单举例 from pyquery import PyQuery as pq html = ''' <div> <ul> <li class="item-O"><a href="linkl.html">first item</a></li> <li class="item-1"><a href="link2.html">second item</a></

2020-08-17 10:56:48 241

原创 鸟哥的Linux私房菜-基础篇-第四、五章学习心得

第四章 显示日期与时间的指令 date 显示日历指令 cal 简单好用的计算器 bc 命令后接[Tab]键 [Tab]键 接在一串指令的第一个后面----命令补全 [Tab]键 接在一串指令的第二个后面----文件补全 [Tab]键 在一些字符后面接两个[Tab]键----查看这些字符开头的命令 中断目前的程序 [control]键 + [c]键 键盘输入结束 键盘输入结束(End Of File,EOF 或 End Of Input) 的意思 往前翻页 或 往后翻

2020-08-17 10:55:48 233

原创 爬虫基本库的使用之urllib库

urllib的简单使用 urllib模块是Python内置的HTTP请求模块 urllib包含模块:request模块、error模块、parse模块、robotparser模块 例子 举例1: 向指定的url发送请求,并返回服务器响应的类文件对象 response = urllib.request.urlopen('https://www.python.org') 读取文件全部内容 html = response.read() 将其他编码的字符串转换成unicode编码 print(htm

2020-08-17 10:54:26 313

原创 爬虫基本库的使用之requests库

使用requests 由于处理网页验证和Cookies时,需要写Opener和Handler来处理,为了更方便地实现这些操作,就有了更强大的库requests。requests库功能很强大。能实现Cookies、登录验证、代理设置等操作。 简单使用requests库 import requests r = requests.get('http://wwww.baidu.com/') print(type(r), r.status_code, r.text, r.cookies, sep='\n\n') G

2020-08-17 10:53:07 311

原创 Linux-常用命令

cd 命令 回到家目录 cd ~ 切换到当前目录下的dir目录 cd dir 切换到根目录 cd / 切换到到上一级目录 cd .. 切换到上二级目录 cd ../.. ls 命令 以默认方式显示当前目录文件列表 ls 显示所有文件包括隐藏文件 ls -a 显示文件属性,包括大小,日期,符号连接,是否可读写及是否可执行 ls -l 显示文件的大小,以容易理解的格式印出文件大小 (例如 1K 234M2G) ls -lh 显示文件,按照修改时间排序

2020-08-17 10:51:24 169

原创 正则表达式和python中的re模块

常用的正则匹配规则 元字符 量词 字符组 字符集 转义符 贪婪匹配 re模块使用正则表达式 举例:判断一个手机号码是否合法 不使用正则表达式 # 不使用正则表达式 phone_number = input("请输入一个11位数导入手机号码 :") if len(phone_number) == 11 \ and phone_number.isdigit() \ and (phone_number.startswith('13') o

2020-08-17 10:50:14 322

原创 XPath-的简单使用

XPath XPath是一门在XML文档中查找信息的语言,它提供了非常简洁明了的路径选择表达式。 表达式 描 述 nodename 选取此节点的所有子节点 / 从当前节点选取直接子节点 // 从当前节点选取子孙节点 . 选取当前节点 … 选取当前节点的父节点 @ 选取属性 举例1: //title[@lang='eng'] 它代表选择所有名称为title,同时属性lang的值为eng的节点 举例2:处理HTML文本 from lxml import etre

2020-08-17 10:48:06 259

原创 网络爬虫基础

HTTP基本原理 URI 全称UniformResource Identifier,即统一资源标志符,用来唯一的标识一个资源。 URL Universal Resource Locator,统一资源定位符。它是一种具体的URI,即URL可以用来标识一个资源,而且还指明了如何locate这个资源 Hypertext 网页源代码是一系列 HTML 代码,里面包含了一系列标签,如 img 显示图片,p 指定显示段落等,浏览器解析这些标签后便形成了我们平常看到的网页,而这网页的源代码HTML 就可以称作超文本(Hy

2020-08-17 10:44:57 257

原创 BeautifulSoup 的简单使用

Beautiful Soup初了解 解析工具Beautiful Soup,借助网页的结构和属性等特性来解析网页(简单的说就是python的一个HTML或XML的解析库) Beautiful Soup支持的解析器 解析器 使用方法 优势 劣势 Python标准库 BeautifulSoup(markup, " html. parser ") Python 的内 宜标准库、执行速度适中、文档容错能力强 Python 2.7.3及 Python3.2.2 之前的版本文档容错能力差

2020-08-17 10:42:11 418

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除