Python 学习
涵盖Python 环境安装,Python 爬虫,Python 字符视频制作,Python 词云制作,等一系列与Python 有关的知识
猪猪传奇
真正的大师,永远怀着一颗学徒的心
展开
-
【Python 爬虫】XPath的简单使用
一、XPath(XML Path Language) 是一门在XML文档中查找信息的语言,可用来在XML文档中对元素和属性进行遍历,需要安装lxml库最常用的路径表达式常用路径表达式以及表达式的结果谓语用来查找某个特定的节点或者包含某个指定的值的节点,被嵌在方括号中选取未知节点选取若干路径,通过在路径表达式中使用“|”运算符,您可以选取若干个路径XPath的运算符二、对于xpath的简单理解浅析~DOM结构中的元素节点、属性节点、文本节点上篇博客是我当原创 2020-09-07 13:47:28 · 759 阅读 · 0 评论 -
【Python 爬虫】代理IP的获取、验证与使用
一、获取代理IPimport requestsimport reimport timeimport random# 爬取网站:云代理# http://www.ip3366.net/free/?stype=1&page=1headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/原创 2020-09-04 22:34:47 · 1499 阅读 · 0 评论 -
【Python 爬虫】requests库的简单操作
一、get请求import requestsif __name__ == '__main__': response = requests.get(url='http://www.baidu.com/') response.encoding = 'utf-8' # 设定response 的decode编码 print(response.text)# 获取文本内容 print(response.status_code) # 获取响应状态码 print(respons原创 2020-09-04 21:26:19 · 1743 阅读 · 0 评论 -
【Python 爬虫】正则表达式的简单使用
一、综述为什么要学正则:处理数据(按照我们想要的方式存储和使用)正则匹配规则:因为太长了,所以见本文最后match方法:从起始位置开始查找,一次匹配,返回object对象,使用group()获取对象中存储的匹配值search方法:从任何位置开始查找,一次匹配,返回object对象,使用group()获取对象中存储的匹配值findall方法:全部匹配,返回列表,若匹配表达式,要求同时还有其他匹配,则返回元组列表,r'<img src2="(.*?)" alt="(.*?)"'findite原创 2020-09-04 22:00:43 · 283 阅读 · 0 评论 -
【Python~分享】爬取 e+ 生活商城 所有商品信息、销量、价格 等
注:这个代码,以前确实能运行,但是最近那个e+网城访问不了了,所以,现在也就运行不了了,不过可以拿来参考,思想很简单import requestsimport bs4from bs4 import BeautifulSoupimport reimport timedef getHtmlSrc(url):#获取页面文档结构 #proxies={"http":"60.191.20...原创 2019-01-22 14:17:09 · 513 阅读 · 0 评论 -
【Python~分享】制作大数据词云展示
import jiebaimport imageiofrom wordcloud import WordCloud,ImageColorGeneratorfrom matplotlib import pyplot as plt#字体库font=r"D:\Python_things\FontFamily\Muya.ttf"#待解析文本库text=""text_path=r"D:\Py...原创 2019-01-22 14:20:19 · 2326 阅读 · 1 评论 -
【Python~分享】selenium库实现自动打开谷歌浏览器,搜索腾讯视频,登录腾讯视频
from selenium import webdriverfrom selenium.webdriver import ActionChainsimport timebrowser = webdriver.Chrome()browser.maximize_window()browser.get("https://www.baidu.com/")tx=browser.find_ele...原创 2019-01-22 14:23:22 · 851 阅读 · 0 评论 -
【Python~分享】解析本地HTML文档,替换里面所有 img 标签的链接
注:实现解析本地HTML文档,将其中的网络图片下载到本地,并将其中的网络图片地址,改为本地地址import requestsimport osfrom bs4 import BeautifulSoupdef getContent(url): try: r=requests.get(url,timeout=20) r.raise_for_status...原创 2019-01-22 14:32:38 · 2673 阅读 · 0 评论 -
【Python~分享】爬取 mp4 格式视频
注:此视频网站涉及敏感信息,所以暂不给出网站URLimport requestsfrom bs4 import BeautifulSoupimport timeimport socketimport osimport reimport bs4def getText(url): try: header = {'User-Agent': 'Mozilla/5...原创 2019-01-22 15:11:45 · 3777 阅读 · 1 评论 -
【Python~分享】爬取代理IP网页,获取免费代理IP
import requestsimport osfrom bs4 import BeautifulSoupimport bs4global headerimport timeheader = {'User-Agent': 'Mozilla/5.0'}def get_ip_soup(url): try: r=requests.get(url,timeout=...原创 2019-01-22 15:13:41 · 1499 阅读 · 0 评论 -
【Python~分享】爬取 m3u8 格式的视频文件,并将其中的 .ts 合并为 .mp4
注:由于我进行的并不是规范爬虫,每次爬都是有点心虚,所以下手对象也是一些不法网站QAQ,其中涉及敏感信息,所以就不给出网站URL,哈哈而且当时是想爬全站,所以逻辑思路有些啰嗦,但后来感觉爬全站没意思,而且电脑容量放不下可能,所以就放弃了,所以这个代码,只能够处理单个页面的,目前import requestsimport bs4from bs4 import BeautifulSoupim...原创 2019-01-22 15:23:46 · 8605 阅读 · 2 评论 -
【Python~分享】测试电脑性能,最多能创建多少个线程
注:这个代码以前确实能测出能建多少个线程,但是好长时间过去了,今天我再启动,代码报错~~而且,好长时间之后,我都看不太懂当初自己写的代码了,一些基本的Python类啥的,都忘了,所以更别提更正代码了,贴出代码,希望大家有需要的能够借鉴一下,因为代码确实存在一些错误… QAQimport threadingimport time, random, sysclass Counter: ...原创 2019-01-22 15:35:47 · 3920 阅读 · 1 评论 -
【Python~分享】爬取学校的 URP 系统
注:这个是我当初爬学校的URP系统时写的代码,只写了一半左右。其中涉及了,验证码图片的一些处理,当初因为时间有限,图片的二值化那里,应该是不够严谨,因为它只适用于一般字母与背景区分度比较明显的二值化,而我们学校的URP就比较坑人了,它的背景图与字母都是差不多颜色的,而我又不清楚这个颜色划分,所以进行不下去了,但是这个代码对于处理一般的验证码还是有作用的而且,我的pycharm是安装不上 tes...原创 2019-01-22 15:50:41 · 478 阅读 · 0 评论 -
【Python 打包】Python 应用 pyinstaller 打包程序生成 .exe
最近做了一个微博爬虫,实时监控微博动态,并实现发短信提醒的功能(短信推荐-榛子科技-提供的短信接口,可以实现自定义短信内容,像阿里云、腾讯云啥的,要发送自定义短信,必须得企业认证啥的,否则只能发送验证码,并不支持个人用户发送自定义内容),做完后,感觉程序代码没有修改的必要了,又怕以后自己瞎动代码,所以干脆冻结代码,生成可执行文件我的配置:pycharm 2018 x64python 3.7....原创 2019-05-08 12:07:23 · 340 阅读 · 0 评论 -
【Python 字符视频】Python 实现将抖音视频转换成字符视频
以前就在抖音上看到过字符视频,直到昨天才突然想自己动手做一个,然后就利用各种博客,自己总结 兼 借鉴,终于完成了字符视频的制作一、思路:众所周知,视频是一帧一帧的图片组成的,所以我想的就是将抖音的视频先解析成好多帧图片,然后对图片进行操作,最后再把图片合成视频二、遇到的问题:其中我遇到的最大问题就是 pycharm 的 BUG,我从来没有想过 pycharm 会有 BUG,所以在我安装...原创 2019-06-03 11:46:50 · 1968 阅读 · 5 评论 -
Python 深度学习神器 - 基于 pycharm 的 jupyter 的安装与配置
我的这个jupyter安装是基于pycharm为后台的,因为我平常写Python程序就是在pycharm上写的,进来学习深度学习,发现了这个开发深度学习的神器。一款记事本类型的Python编辑器。一、安装打开pycharm,点击terminal输入pip install jupyter或者点击file->settings->project interpreter 点击+号添加依...原创 2020-03-03 22:57:07 · 2501 阅读 · 0 评论 -
【Anaconda 与 Conda】基于pycharm的Anaconda安装
目标:实现pycharm上操作Anaconda环境:系统:window 7pycharm:2019步骤:1. 下载:如果打算安装Anaconda,需要卸载之前安装的Python(如果不想卸载,参考博客,不过这个实在有点长,我没看完都),因为Anaconda是一个集成环境,所以是自带Python的,下载Anaconda,这个是官网:如图:根据电脑型号,选择版本,这里建议选择3.x...原创 2020-04-06 23:13:11 · 633 阅读 · 0 评论 -
【 pip 配置清华源】基于 pycharm 的配置清华源
点击settings:点击+号点击进入:点击加号添加:https://pypi.tuna.tsinghua.edu.cn/simple/以后下载都用清华源的就可以了,要不然官方的下载速度太慢了。...原创 2020-04-06 23:40:13 · 1465 阅读 · 1 评论 -
【python爬虫抓包】Charles抓包工具的下载与配置
Charles下载地址:Charles官网点击下载:一、配置代理点击 Proxy->Proxy Settings,勾选成图中所示,点击OK二、配置HTTPS如果没有配置HTTPS,点击抓取的网页是乱码,因为被加密了,所以需要配置HTTPS,使网页可以明文显示未配置https,网站下显示unknow,contents显示乱码:配置SSL证书:点击help->SSL Proxying->Install Charles Root Certificate如图,对于初原创 2020-09-03 21:35:10 · 854 阅读 · 1 评论 -
【Python 爬虫】urllib库的简单操作
注:urllib是python自带的包,不需要安装,直接导入即可使用一、get请求# urllib网络请求是python自带的import urllib#请求from urllib import requestif __name__ == '__main__': # 服务器响应 response1 = urllib.request.urlopen(url="http://www.baidu.com") text = response1.read().decode("ut原创 2020-09-04 20:54:34 · 345 阅读 · 0 评论