bangyinyou3056-CSDN博客

转载正则表达式和re模块

什么是正则表达式：通俗理解：按照一定的规则，从某个字符串中匹配出想要的数据。这个规则就是正则表达式。标准答案：https://baike.baidu.com/item/正则表达式/1700215?fr=aladdin 一个段子：世界是分为两种人，一种是懂正则表达式的，一种是不懂正则表达式的。正则表达式常用匹配规则：匹配某个字符串： text = 'hello' ...

2019-09-11 10:56:00 204

转载 Scrapy框架

Scrapy框架介绍：写一个爬虫，需要做很多的事情。比如：发送网络请求、数据解析、数据存储、反反爬虫机制（更换ip代理、设置请求头等）、异步请求等。这些工作如果每次都要自己从零开始写的话，比较浪费时间。因此Scrapy把一些基础的东西封装好了，在他上面写爬虫可以变的更加的高效（爬取效率和开发效率）。因此真正在公司里，一些上了量的爬虫，都是使用Scrapy框架来解决。 Scrapy架...

2019-09-11 10:56:00 186

转载 http协议和Chrome抓包工具

什么是http和https协议： HTTP协议：全称是HyperText Transfer Protocol，中文意思是超文本传输协议，是一种发布和接收HTML页面的方法。服务器端口号是80端口。 HTTPS协议：是HTTP协议的加密版本，在HTTP下加入了SSL层。服务器端口号是443端口。在浏览器中发送一个http请求的过程：当用户在浏览器的地址栏中输入一个URL并按回...

2019-09-11 10:53:00 257

转载 requests库

requests库虽然Python的标准库中 urllib模块已经包含了平常我们使用的大多数功能，但是它的 API 使用起来让人感觉不太好，而 Requests宣传是 “HTTP for Humans”，说明使用更简洁方便。安装和文档地址：利用pip可以非常方便的安装： pip install requests 中文文档：http://docs.python-requ...

2019-09-11 10:52:00 243

转载 Beautifulsoup

BeautifulSoup4库和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。lxml 只会局部遍历，而Beautiful Soup 是基于HTML DOM（Document Object Model）的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。B...

2019-09-11 10:50:00 123

转载 xpath

XPath语法和lxml模块什么是XPath？ xpath（XML Path Language）是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。 XPath开发工具 Chrome插件XPath Helper。 Firefox插件Try XPath。 XPath语法选取节点： XPath 使用路径表达式来选取 X...

2019-09-11 10:48:00 255

转载 Mysql一些操作

操作文件夹（库）增 create database db1 charset utf8; 查 show create database db1; show databases; 改 alter database db1 charset gbk; 删 drop database db1; 操作文件（表...

2019-07-10 21:49:00 125

转载 Python之文件操作

操作模式 1。 r 只读模式 2。 w 创建模式，若文件已存在，则覆盖旧文件 3。 a追加模式，新数据会写到文件末尾创建文件 f = open(file='D:/工作日常/staff.txt',mode='w') f.write("Alex CEO 600\n") f.write...

2019-06-16 21:22:00 155

转载 Python之字典操作

特性： key-value结构 key必须为不可变数据类型、必须唯一可存放任意多个value、可修改、可以不唯一无序创建操作 >>>person = {"name": "alex", 'age': 20} #或 >>>person = dict(name='seven', age=20) #或 >>&...

2019-06-16 21:06:00 135

转载 Python之字符串操作

def capitalize(self): 首字母大写 def casefold(self): 把字符串全变小写 >> > c = 'Alex Li' >> > c.casefold() 'alex li' def center(self, width, fillchar=None): ...

2019-06-16 20:59:00 181

转载 Python之元组操作

特性：　　1.可存放多个值　　2.不可变　　3.按照从左到右的顺序定义元组元素，下标从0开始顺序访问，有序常用 #索引 >>> ages = (11, 22, 33, 44, 55) >>> ages[0] 11 >>> ages[3] 44 >>> ages[-1] 55 #切片:同l...

2019-06-16 20:57:00 173

转载排序算法

计算时间的迭代器 import time def cal_time(func): def wrapper(*args, **kwargs): t1 = time.time() result = func(*args, **kwargs) t2 = time.time() print("%s r...

2019-01-26 20:48:00 140

转载动态网页数据抓取

动态网页数据抓取什么是AJAX： AJAX（Asynchronouse JavaScript And XML）异步JavaScript和XML。过在后台与服务器进行少量数据交换，Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。传统的网页（不使用Ajax）如果需要更新内容，必须重载整个网页页面。因为传统的在传输数据格式方面，使用的是...

2018-12-17 08:23:00 552

转载多线程爬虫

多线程爬虫有些时候，比如下载图片，因为下载图片是一个耗时的操作。如果采用之前那种同步的方式下载。那效率肯会特别慢。这时候我们就可以考虑使用多线程的方式来下载图片。多线程介绍：多线程是为了同步完成多项任务，通过提高资源使用效率来提高系统的效率。线程是在同一时间需要完成多项任务的时候实现的。最简单的比喻多线程就像火车的每一节车厢，而进程则是火车。车厢离开火车是无法跑动的，同理火车...

2018-12-16 15:25:00 1127

转载 MySQL数据库操作

安装驱动程序： Python要想操作MySQL。必须要有一个中间件，或者叫做驱动程序。驱动程序有很多。比如有mysqldb、mysqlclient、pymysql等。在这里，我们选择用pymysql。安装方式也是非常简单，通过命令pip install pymysql即可安装。数据库连接：数据库连接之前。首先先确认以下工作完成，这里我们以一个pymysql_test数据库.以下...

2018-12-15 20:08:00 306

转载 json

什么是json： JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集，采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。易于人阅读和编写，同时也易于机器解析和生成，并有效地提升网络传输效率。更多解释请...

2018-12-15 19:45:00 213

转载 csv

读取csv文件： import csv with open('stock.csv','r') as fp: reader = csv.reader(fp) titles = next(reader) for x in reader: print(x) 这样操作，以后获取数据的时候，就要通过下表来获取数据。如果想要在获...

2018-12-15 19:37:00 125

bangyinyou3056的博客