自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

转载 正则表达式和re模块

什么是正则表达式:通俗理解:按照一定的规则,从某个字符串中匹配出想要的数据。这个规则就是正则表达式。标准答案:https://baike.baidu.com/item/正则表达式/1700215?fr=aladdin一个段子:世界是分为两种人,一种是懂正则表达式的,一种是不懂正则表达式的。正则表达式常用匹配规则:匹配某个字符串:text = 'hello'...

2019-09-11 10:56:00 150

转载 Scrapy框架

Scrapy框架介绍:写一个爬虫,需要做很多的事情。比如:发送网络请求、数据解析、数据存储、反反爬虫机制(更换ip代理、设置请求头等)、异步请求等。这些工作如果每次都要自己从零开始写的话,比较浪费时间。因此Scrapy把一些基础的东西封装好了,在他上面写爬虫可以变的更加的高效(爬取效率和开发效率)。因此真正在公司里,一些上了量的爬虫,都是使用Scrapy框架来解决。Scrapy架...

2019-09-11 10:56:00 139

转载 http协议和Chrome抓包工具

什么是http和https协议:HTTP协议:全称是HyperText Transfer Protocol,中文意思是超文本传输协议,是一种发布和接收HTML页面的方法。服务器端口号是80端口。 HTTPS协议:是HTTP协议的加密版本,在HTTP下加入了SSL层。服务器端口号是443端口。在浏览器中发送一个http请求的过程:当用户在浏览器的地址栏中输入一个URL并按回...

2019-09-11 10:53:00 203

转载 requests库

requests库虽然Python的标准库中 urllib模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests宣传是 “HTTP for Humans”,说明使用更简洁方便。安装和文档地址:利用pip可以非常方便的安装:pip install requests中文文档:http://docs.python-requ...

2019-09-11 10:52:00 163

转载 Beautifulsoup

BeautifulSoup4库和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM(Document Object Model)的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。B...

2019-09-11 10:50:00 91

转载 xpath

XPath语法和lxml模块什么是XPath?xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。XPath开发工具Chrome插件XPath Helper。Firefox插件Try XPath。XPath语法选取节点:XPath 使用路径表达式来选取 X...

2019-09-11 10:48:00 205

转载 Mysql一些操作

操作文件夹(库)增 create database db1 charset utf8;查 show create database db1; show databases;改 alter database db1 charset gbk;删 drop database db1;操作文件(表...

2019-07-10 21:49:00 87

转载 Python之文件操作

操作模式 1。 r 只读模式 2。 w 创建模式,若文件已存在,则覆盖旧文件 3。 a追加模式,新数据会写到文件末尾创建文件f = open(file='D:/工作日常/staff.txt',mode='w')f.write("Alex CEO 600\n")f.write...

2019-06-16 21:22:00 120

转载 Python之字典操作

特性:key-value结构key必须为不可变数据类型、必须唯一可存放任意多个value、可修改、可以不唯一无序创建操作>>>person = {"name": "alex", 'age': 20} #或>>>person = dict(name='seven', age=20)#或>>&...

2019-06-16 21:06:00 108

转载 Python之字符串操作

def capitalize(self): 首字母大写def casefold(self): 把字符串全变小写 >> > c = 'Alex Li' >> > c.casefold() 'alex li'def center(self, width, fillchar=None): ...

2019-06-16 20:59:00 133

转载 Python之元组操作

特性:  1.可存放多个值  2.不可变  3.按照从左到右的顺序定义元组元素,下标从0开始顺序访问,有序常用#索引>>> ages = (11, 22, 33, 44, 55)>>> ages[0]11>>> ages[3]44>>> ages[-1]55#切片:同l...

2019-06-16 20:57:00 133

转载 排序算法

计算时间的迭代器import timedef cal_time(func): def wrapper(*args, **kwargs): t1 = time.time() result = func(*args, **kwargs) t2 = time.time() print("%s r...

2019-01-26 20:48:00 104

转载 动态网页数据抓取

动态网页数据抓取什么是AJAX:AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML。过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。传统的网页(不使用Ajax)如果需要更新内容,必须重载整个网页页面。因为传统的在传输数据格式方面,使用的是...

2018-12-17 08:23:00 439

转载 多线程爬虫

多线程爬虫有些时候,比如下载图片,因为下载图片是一个耗时的操作。如果采用之前那种同步的方式下载。那效率肯会特别慢。这时候我们就可以考虑使用多线程的方式来下载图片。多线程介绍:多线程是为了同步完成多项任务,通过提高资源使用效率来提高系统的效率。线程是在同一时间需要完成多项任务的时候实现的。最简单的比喻多线程就像火车的每一节车厢,而进程则是火车。车厢离开火车是无法跑动的,同理火车...

2018-12-16 15:25:00 1021

转载 MySQL数据库操作

安装驱动程序:Python要想操作MySQL。必须要有一个中间件,或者叫做驱动程序。驱动程序有很多。比如有mysqldb、mysqlclient、pymysql等。在这里,我们选择用pymysql。安装方式也是非常简单,通过命令pip install pymysql即可安装。数据库连接:数据库连接之前。首先先确认以下工作完成,这里我们以一个pymysql_test数据库.以下...

2018-12-15 20:08:00 234

转载 json

什么是json:JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。更多解释请...

2018-12-15 19:45:00 166

转载 csv

读取csv文件:import csvwith open('stock.csv','r') as fp: reader = csv.reader(fp) titles = next(reader) for x in reader: print(x)这样操作,以后获取数据的时候,就要通过下表来获取数据。如果想要在获...

2018-12-15 19:37:00 75

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除