- 博客(17)
- 收藏
- 关注
转载 正则表达式和re模块
什么是正则表达式: 通俗理解:按照一定的规则,从某个字符串中匹配出想要的数据。这个规则就是正则表达式。标准答案:https://baike.baidu.com/item/正则表达式/1700215?fr=aladdin 一个段子: 世界是分为两种人,一种是懂正则表达式的,一种是不懂正则表达式的。 正则表达式常用匹配规则: 匹配某个字符串: text = 'hello' ...
2019-09-11 10:56:00
204
转载 Scrapy框架
Scrapy框架介绍: 写一个爬虫,需要做很多的事情。比如:发送网络请求、数据解析、数据存储、反反爬虫机制(更换ip代理、设置请求头等)、异步请求等。这些工作如果每次都要自己从零开始写的话,比较浪费时间。因此Scrapy把一些基础的东西封装好了,在他上面写爬虫可以变的更加的高效(爬取效率和开发效率)。因此真正在公司里,一些上了量的爬虫,都是使用Scrapy框架来解决。 Scrapy架...
2019-09-11 10:56:00
186
转载 http协议和Chrome抓包工具
什么是http和https协议: HTTP协议:全称是HyperText Transfer Protocol,中文意思是超文本传输协议,是一种发布和接收HTML页面的方法。服务器端口号是80端口。 HTTPS协议:是HTTP协议的加密版本,在HTTP下加入了SSL层。服务器端口号是443端口。 在浏览器中发送一个http请求的过程: 当用户在浏览器的地址栏中输入一个URL并按回...
2019-09-11 10:53:00
257
转载 requests库
requests库 虽然Python的标准库中 urllib模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests宣传是 “HTTP for Humans”,说明使用更简洁方便。 安装和文档地址: 利用pip可以非常方便的安装: pip install requests 中文文档:http://docs.python-requ...
2019-09-11 10:52:00
243
转载 Beautifulsoup
BeautifulSoup4库 和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM(Document Object Model)的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。B...
2019-09-11 10:50:00
123
转载 xpath
XPath语法和lxml模块 什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。 XPath开发工具 Chrome插件XPath Helper。 Firefox插件Try XPath。 XPath语法 选取节点: XPath 使用路径表达式来选取 X...
2019-09-11 10:48:00
255
转载 Mysql一些操作
操作文件夹(库) 增 create database db1 charset utf8; 查 show create database db1; show databases; 改 alter database db1 charset gbk; 删 drop database db1; 操作文件(表...
2019-07-10 21:49:00
125
转载 Python之文件操作
操作模式 1。 r 只读模式 2。 w 创建模式,若文件已存在,则覆盖旧文件 3。 a追加模式,新数据会写到文件末尾 创建文件 f = open(file='D:/工作日常/staff.txt',mode='w') f.write("Alex CEO 600\n") f.write...
2019-06-16 21:22:00
155
转载 Python之字典操作
特性: key-value结构 key必须为不可变数据类型、必须唯一 可存放任意多个value、可修改、可以不唯一 无序 创建操作 >>>person = {"name": "alex", 'age': 20} #或 >>>person = dict(name='seven', age=20) #或 >>&...
2019-06-16 21:06:00
135
转载 Python之字符串操作
def capitalize(self): 首字母大写 def casefold(self): 把字符串全变小写 >> > c = 'Alex Li' >> > c.casefold() 'alex li' def center(self, width, fillchar=None): ...
2019-06-16 20:59:00
181
转载 Python之元组操作
特性: 1.可存放多个值 2.不可变 3.按照从左到右的顺序定义元组元素,下标从0开始顺序访问,有序 常用 #索引 >>> ages = (11, 22, 33, 44, 55) >>> ages[0] 11 >>> ages[3] 44 >>> ages[-1] 55 #切片:同l...
2019-06-16 20:57:00
173
转载 排序算法
计算时间的迭代器 import time def cal_time(func): def wrapper(*args, **kwargs): t1 = time.time() result = func(*args, **kwargs) t2 = time.time() print("%s r...
2019-01-26 20:48:00
140
转载 动态网页数据抓取
动态网页数据抓取 什么是AJAX: AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML。过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。传统的网页(不使用Ajax)如果需要更新内容,必须重载整个网页页面。因为传统的在传输数据格式方面,使用的是...
2018-12-17 08:23:00
552
转载 多线程爬虫
多线程爬虫 有些时候,比如下载图片,因为下载图片是一个耗时的操作。如果采用之前那种同步的方式下载。那效率肯会特别慢。这时候我们就可以考虑使用多线程的方式来下载图片。 多线程介绍: 多线程是为了同步完成多项任务,通过提高资源使用效率来提高系统的效率。线程是在同一时间需要完成多项任务的时候实现的。最简单的比喻多线程就像火车的每一节车厢,而进程则是火车。车厢离开火车是无法跑动的,同理火车...
2018-12-16 15:25:00
1127
转载 MySQL数据库操作
安装驱动程序: Python要想操作MySQL。必须要有一个中间件,或者叫做驱动程序。驱动程序有很多。比如有mysqldb、mysqlclient、pymysql等。在这里,我们选择用pymysql。安装方式也是非常简单,通过命令pip install pymysql即可安装。 数据库连接: 数据库连接之前。首先先确认以下工作完成,这里我们以一个pymysql_test数据库.以下...
2018-12-15 20:08:00
306
转载 json
什么是json: JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。更多解释请...
2018-12-15 19:45:00
213
转载 csv
读取csv文件: import csv with open('stock.csv','r') as fp: reader = csv.reader(fp) titles = next(reader) for x in reader: print(x) 这样操作,以后获取数据的时候,就要通过下表来获取数据。如果想要在获...
2018-12-15 19:37:00
125
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅