Python
文章平均质量分 70
aimmon
这个作者很懒,什么都没留下…
展开
-
Python实现文件分割功能
效果图。原创 2024-05-30 10:17:04 · 1052 阅读 · 1 评论 -
Python学习笔记--Python 爬虫入门 -17-7 requests 献给人类
# Requests-献给人类- HTTP for Humans,更简洁更友好- 继承了urllib的所有特征- 底层使用的是urllib3- 开源地址: https://github.com/requests/requests- 中文文档: http://docs.python-requests.org/zh_CN/latest/index.html - 安装: conda in...翻译 2018-09-09 13:52:16 · 189 阅读 · 0 评论 -
Anaconda 命令的使用
没有anaconda 基础可以查看另一篇博文介绍 Python 学习之Anaconda 设置默认打开chrome 浏览器打开Anaconda Prompt 1. conda -V #查看系统版本2、conda常用命令 1)conda list #查看安装了哪些包。 2)conda env list 或 conda info -e #查看当前存在哪些虚拟环境...原创 2018-09-15 16:38:20 · 374 阅读 · 0 评论 -
Python学习笔记--Python 爬虫入门 -18-1 Scrapy
# scrapy# 爬虫框架- 框架- 爬虫框架 - scrapy - pyspider - crawley- scrapy框架介绍 - https://doc.scrapy.org/en/latest/ - http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html- 安装 -...翻译 2018-09-15 16:59:16 · 396 阅读 · 0 评论 -
Python学习笔记--Python 爬虫入门 -18-2 Scrapy-shell
# scrapy-shell- scrapy shell教程- shell - 启动 - Linux: ctr+T,打开终端,然后输入scrapy shell "url:xxxx" (注意是 双引号) - windows: scrapy shell "url:xxx" - 启动后自动下载指定url的网页 - 下载完成后,url的内容保存在respons...翻译 2018-09-15 17:33:07 · 216 阅读 · 0 评论 -
Python学习笔记--Python 爬虫入门 -17-8 正则,xml+xpath+lxml
# 页面解析和数据提取- 结构数据: 先有的结构,在谈数据 - JSON文件 - JSON Path - 转换成Python类型进行操作(json类) - XML文件 - 转换成python类型(xmltodict) - XPath - CSS选择器 - 正则- 非结构化数据:先有数...翻译 2018-09-09 23:18:27 · 263 阅读 · 0 评论 -
Python学习笔记--Python 爬虫入门 -17-9 BeautifulSoup4
# CSS选择器 BeautifulSoup4- 现在使用BeautifulSoup4- 官方文档 http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/- 几个常用提取信息工具的比较: - 正则: 很快,不好用,不许安装 - beautifulsoup:慢,使用简单,安装简单 - lxml: 比较快,使用简单,安装一...翻译 2018-09-10 00:06:46 · 197 阅读 · 0 评论 -
Python学习笔记--Python 爬虫入门 -17-10 动态数据的采集 Selenium+PhantomJS
# 动态HTML## 爬虫跟反爬虫## 动态HTML介绍- JavaScrapt- jQuery- Ajax- DHTML- Python采集动态数据 - 从Javascript代码入手采集 - Python第三方库运行JavaScript,直接采集你在浏览器看到的页面## Selenium + PhantomJS- Selenium: web自动化测试工具...翻译 2018-09-10 01:22:09 · 1096 阅读 · 0 评论 -
Python学习笔记--Python 爬虫入门 -17-6 ajax (豆ban,情有独钟)
- ajax - 异步请求 - 一定会有url,请求方法,可能有数据 - 一般使用json格式 - 案例,爬去豆瓣电影, 案例v20"""豆瓣电影"""from urllib import request,parseimport json#if __name__ == '__main__': url = "https://movie...翻译 2018-09-09 11:27:47 · 127 阅读 · 0 评论 -
Python学习笔记--Python 爬虫入门 -17-5 js 加密 (和有道词典的瓜葛)
- js加密 - 有的反爬虫策略采用js对需要传输的数据进行加密处理(通常是取md5值) - 经过加密,传输的就是密文,但是 - 加密函数或者过程一定是在浏览器完成,也就是一定会把代码(js代码)暴露给使用者 - 通过阅读加密算法,就可以模拟出加密过程,从而达到破解 - 过程参看案例 v18 - 视频请参考图灵学院https://stud...翻译 2018-09-09 11:02:51 · 287 阅读 · 0 评论 -
Python学习笔记--Python 网络编程 -16-1 UDP/TCP
# 网络编程- 网络:- 网络协议: 一套规则- 网络模型: - 七层模型-七层 - 物理层 - 数据链路层 - 网络层 - 传输层 - 会话层 - 表示层 - 应用层 - 四层模型-实际应用 - 链路层 - 网络 ...翻译 2018-09-07 23:32:37 · 230 阅读 · 0 评论 -
Python学习笔记--Python 网络编程 -16-2 FTP
# FTP编程- FTP(FileTransferProtocol /ˈprəʊtəkɒl/ )文件传输协议- 用途: 定制一些特殊的上传下载文件的服务- 用户分类: 登陆FTP服务器必须有一个账号 - Real账户: 注册账户 - Guest账户: 可能临时对某一类人的行为进行授权 - Anonymous账户: 匿名账户,允许任何人- FTP工作流程...翻译 2018-09-07 23:35:26 · 195 阅读 · 0 评论 -
Python学习笔记--Python 网络编程 -16-3 Mail编程
# Mail编程## 电子邮件的历史- 起源 - 1969 Leonard K. 教授发给同时的 “LO” - 1971 美国国防部自主的阿帕网(Arpanet)的通讯机制 - 通讯地址里用@, - 1987年中国的第一份电子邮件 “Across the Great Wall we can reach every corner in the wo...翻译 2018-09-07 23:39:43 · 1088 阅读 · 0 评论 -
Python学习笔记--Python 爬虫入门 -17-1 urllib_request+parse+chardet+get+post+Request
# 0 爬虫准备工作- 参考资料 - python网络数据采集, 图灵工业出版 - 精通Python爬虫框架Scrapy, 人民邮电出版社 - [Python3网络爬虫](http://blog.csdn.net/c406495762/article/details/72858983) - [Scrapy官方教程](http://scrapy-chs....翻译 2018-09-08 15:32:12 · 442 阅读 · 0 评论 -
Python学习笔记--Python 爬虫入门 -17-2 urllib_error+proxy
- urllib.error - URLError产生的原因: - 没网 - 服务器链接失败 - 知不道制定服务器 - 是OSError的子类 - 案例V07from urllib import request,error"""URLError 的使用"""if __name__ == '__...翻译 2018-09-08 18:44:59 · 208 阅读 · 0 评论 -
Python学习之write 乱码
重点在于open 方法加上encoding="utf-8" with open("webrenren.html",'w',encoding="utf-8") as f: f.write(html)原创 2018-09-08 22:33:48 · 2640 阅读 · 0 评论 -
Python学习笔记--Python 爬虫入门 -17-3 cookie+session (人人网的爱恨情仇)
- cookie & session - 由于http协议的无记忆性,人们为了弥补这个缺憾,所采用的一个补充协议 - cookie是发放给用户(即http浏览器)的一段信息,session是保存在服务器上的对应的另一半信息,用来记录用户信息 - cookie和session的区别 - 存放位置不同 - cookie不安全 - session...原创 2018-09-09 00:41:30 · 321 阅读 · 0 评论 -
Python学习笔记--Python 爬虫入门 -17-4 SSL (12306 的故事)
- SSL - SSL证书就是指遵守SSL安全套阶层协议的服务器数字证书(SercureSocketLayer) - 美国网景公司开发 - CA(CertifacateAuthority)是数字证书认证中心,是发放,管理,废除数字证书的收信人的第三方机构 - 遇到不信任的SSL证书,需要单独处理,案例v17 from urllib import requ...翻译 2018-09-09 01:02:27 · 283 阅读 · 0 评论 -
Python学习笔记--Python 爬虫入门 -19 Django
# Django系统- 环境 - python3.6 - django2.0.5- 参考资料 - [django中文教程](http://python.usyiyi.cn/) - django架站的16堂课# 环境搭建- anaconda+pycharm- anaconda使用 - conda list: 显示当前环境安装的包 - cond...翻译 2018-09-15 22:44:20 · 539 阅读 · 0 评论 -
Python3 网络爬虫(一) 斗图网
此文仅作为记录使用.环境:win10+Python3.6+Anaconda3基本配置:项目结构:代码:import osimport requestsimport threadingfrom urllib import requestfrom bs4 import BeautifulSoupBASE_PAGE_URL = "http://w...原创 2018-09-16 14:16:16 · 293 阅读 · 0 评论 -
Python学习笔记--Python 爬虫入门 -18-3 Scrapy架构+案例(IT之家)
图1.png图片来源:https://doc.scrapy.org/en/master/topics/architecture.html下面的流程图或许更清晰:图2.pngScrapy主要包括了以下组件: 引擎(Scrapy)用来处理整个系统的数据流, 触发事务(框架核心) 调度器(Scheduler)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想...原创 2018-09-25 07:48:26 · 339 阅读 · 0 评论 -
Python 彩蛋
import thisThe Zen of Python, by Tim PetersBeautiful is better than ugly.Explicit is better than implicit.Simple is better than complex.Complex is better than complicated.Flat is better tha...翻译 2018-09-24 13:06:02 · 549 阅读 · 0 评论 -
Python学习笔记--Python 爬虫入门 -18-4 Scrapy命令篇
(proxy_ip_project) C:\Users\user>scrapy --helpScrapy 1.5.0 - no active projectUsage: scrapy <command> [options] [args]Available commands: bench Run quick benchmark test fe...原创 2018-09-25 09:57:51 · 427 阅读 · 0 评论 -
Python学习笔记--Python 爬虫入门 -18-4 Scrapy案例2 ( 西刺代理IP)
一 . 创建工程 >>scrapy startproject xici_proxyip_project二. 创建spider >> cd xici_proxyip_project >> scrapy genspider xicispider xicidaili.com三. Item 编写# -...原创 2018-09-26 21:32:06 · 297 阅读 · 0 评论 -
Anaconda An HTTP error occurred when trying to retrieve this URL.HTTP errors are often intermittent,
在学习TensorFlow时,需要下载tensorflow-gpu 第三方库,始终卡在了cudatoolkit提示如下异常信息:An HTTP error occurred when trying to retrieve this URL.HTTP errors are often intermittent, and a simple retry will get you on y...原创 2018-09-23 00:06:16 · 64952 阅读 · 24 评论 -
Python学习笔记--Python基础-00-Pycharm 激活篇
1.修改hosts 文件以Windows为例:路径:C:\Windows\System32\drivers\etc\追加内容:0.0.0.0 account.jetbrains.com2.获取注册码http://idea.lanyus.com/3.打开Pycharm ,进入激活界面,选择 Activation Code 输入激活码OK! ...原创 2018-09-23 10:45:33 · 271 阅读 · 0 评论 -
Python + AI 微信朋友圈的故事
本文主要记录用Python3调itchat来爬取好友信息,并且制作好友性别比例图,好友位置分析,好友所在城市TOP20 和好友个性签名词云等。涉及如下模块: itchat :一个开源的微信个人号接口,可以实现信息收发、获取好友列表等功能。 jieba :python中文分词组件,制作词云的时候会用到 matpolotlib :python的一个用来画图的库 ...原创 2018-09-30 00:32:02 · 1403 阅读 · 0 评论 -
Python学习笔记--Python 爬虫入门 -17-11 tesseract-OCR
一.Tesseract 安装教程请参考:https://jingyan.baidu.com/article/219f4bf788addfde442d38fe.html这里说明两点关于配置环境变量的地方:1.1在环境变量PATH,把tesseract-ocr的安装路径添加进去。D:\softWare\tesseract\Tesseract-OCR注意,添加时候开头用“;”跟之...原创 2018-09-10 23:35:33 · 261 阅读 · 0 评论 -
selenium:解决 'chromedriver' executable needs to be in PATH 报错 | session not created exception
版本不一致类似的异常还有:session not created exception主要原因是chrome浏览器和chromedriver 驱动 版本不一致导致的.下载驱动的链接 https://chromedriver.storage.googleapis.com/index.html根据如下对应关系,大致找到对应的驱动版本,具体匹配关系,可以参照notes.txt ...原创 2018-09-10 20:23:11 · 1001 阅读 · 0 评论 -
Win10操作系统下,Python3.6 配置MySQL 数据库
一.下载(不必赘述).官网 :https://dev.mysql.com/downloads/mysql/5.7.html#downloads二.安装和配置解压在某个目录下(比如 D:\softWare\mysql )配置PATH环境变量 D:\softWare\mysql\mysql-5.7.23-winx64\bin以管理员身份运行cmd2.1 初始化数据库 mys...原创 2018-09-16 23:29:35 · 388 阅读 · 0 评论 -
Python中dump 和dumps load和loads的区别
dump dumps load loads 啥玩意?脑子一片混乱..1.json.dumps()用于将dict类型的数据转成str,因为如果直接将dict类型的数据写入json文件中会发生报错,因此在将数据写入时需要用到该函数。import json name_emb = {'a':'1111','b':'2222','c':'3333','d':'4444'} js...转载 2018-09-17 00:17:07 · 966 阅读 · 0 评论 -
Python学习笔记--Python 结构化文件存储 -15-1- XML (上)
# 结构化文件存储- xml, json,- 为了解决不同设备之间信息交换- xml,- json# XML文件- 参考资料 - https://docs.python.org/3/library/xml.etree.elementtree.html - http://www.runoob.com/python/python-xml.html - htt...翻译 2018-09-06 23:26:42 · 172 阅读 · 0 评论 -
Python学习笔记--Python 结构化文件存储 -15-1- XML (下)
Student.xml <?xml version="1.0" encoding="utf-8" ?><School> <Teacher desc="PythonTeacher" score="good"> <Name>LiuDana</Name>翻译 2018-09-07 01:08:13 · 213 阅读 · 0 评论 -
Python学习笔记--Python 结构化文件存储 -15-2- JSON
# JSON- 在线工具 - https://www.sojson.com/ - http://www.w3school.com.cn/json/ - http://www.runoob.com/json/json-tutorial.html- JSON(JavaScriptObjectNotation) - 轻量级的数据交换格式,基于ECMAScript...翻译 2018-09-07 01:15:38 · 179 阅读 · 0 评论 -
Python学习笔记--Python 结构化文件存储 -15-3- 正则
# 正则表达式(RegularExpression, re)- 是一个计算机科学的概念- 用于使用单个字符串来描述,匹配符合某个规则的字符串- 常常用来检索,替换某些模式的文本# 正则的写法- .(点号):表示任意一个字符,除了\n, 比如查找所有的一个字符 \.- []: 匹配中括号中列举的任意字符,比如[L,Y,0] , LLY, Y0, LIU- \d: 任意一个数字- \...翻译 2018-09-07 01:28:08 · 174 阅读 · 0 评论 -
Python学习笔记--Python 结构化文件存储 -15-4-XPath
# XPath- 在XML文件中查找信息的一套规则/语言,根据XML的元素或者属性进行遍历- http://www.w3school.com.cn/xpath/index.asp# XPath 开发工具- 开源的XPath表达式编辑工具:XMLQuire- Chrome插件:XPath Helper- Firefox插件: XPath Checker# 选取节点- nodena...翻译 2018-09-07 01:29:36 · 306 阅读 · 0 评论 -
Python 网络爬虫(二) 拉勾网
本案例仅用于学术交流!原文地址 https://github.com/fuyunzhishang/python-spider效果图爬取第二页的时候会提示操作太频繁,后期会考虑优化方案import reimport timeimport requestsimport xlsxwriterfrom bs4 import BeautifulSoupfrom ...原创 2018-09-17 23:04:51 · 249 阅读 · 0 评论 -
Python学习笔记--Python协程-14
协程参考资料 http://python.jobbole.com/86481/ http://python.jobbole.com/87310/ https://segmentfault.com/a/1190000009781688 迭代器可迭代(Iterable):直接作用于for循环的变量 迭代器(Iterator):不但可以作用于for循环,还可以被next调用 l...翻译 2018-09-05 00:04:57 · 249 阅读 · 0 评论 -
Python学习笔记--Python基础-09-常用模块os
# listdir() 获取一个目录中所有子目录和文件的名称列表# 格式:os.listdir(路径)# 返回值:所有子目录和文件名称的列表ld = os.listdir()print(ld)常用模块calendar time datetime timeit os shutil zip math string 上述所有模块使用理论上都应该先导入,strin...翻译 2018-08-30 21:01:49 · 158 阅读 · 0 评论 -
Python学习之 issubclass 和isinstance
1.issubclass语法 issubclass(class, classinfo) #检测一个类是否是另一个类的子类class A: pass class B(A): pass print(issubclass(B,A)) # 返回 True2.isinstance语法isinstance(object, classinfo) #检测一个对象是否是一...翻译 2018-08-27 15:23:20 · 306 阅读 · 0 评论