python
CoolScript
这个作者很懒,什么都没留下…
展开
-
Beautiful Soup
beautiful soup 4basicfrom bs4 import BeautifulSoupfrom pprint import pprintimport re......soup = BeautifulSoup(html_doc, features='lxml')print(soup.prettify())findpprint(soup.find('a').con...原创 2018-09-23 22:29:06 · 180 阅读 · 0 评论 -
python 元类编程
元类编程装饰器任何时候你定义装饰器的时候,都应该使用 functools 库中的 @wraps 装饰器来注解底层包装函数.因为一个装饰器作用在某个函数上,这个函数的重要的元信息比如名字、文档字符串、注解和参数签名都会丢失。import timefrom functools import wrapsdef timethis(func): ''' Decorator ...原创 2019-08-05 16:32:45 · 150 阅读 · 0 评论 -
python多线程
python多线程深入理解基本使用EventSemaphore基本使用join()方法用来阻塞主线程。可以注释掉、看看打印顺序。import threadingimport timedef test(n): time.sleep(1) print(n)t = threading.Thread(target=test, args=(7,))t.start()t.j...原创 2019-06-29 00:25:53 · 182 阅读 · 0 评论 -
python 数据存储
文章目录python常用数据存储方法txtjsoncsvmsyql安装pymysql连接建库建表插入删除修改查询mongodb安装连接建库建文档增删改查redis安装连接操作公用方法字符串列表集合有序集合散列python常用数据存储方法txtwith open('test.txt','w',encoding='utf8') as f: f.write('sdfasdf'+'\n')...原创 2019-05-17 09:19:45 · 346 阅读 · 0 评论 -
python正则表达式
python 正则表达式转发自“Echo_fy 发表于 https://cloud.tencent.com/developer/article/1149679”文章目录python 正则表达式1、正则解说2、中文字符集3、re模块常用方法1、正则解说数量词的贪婪模式与非贪婪模式 正则表达式通常用于在文本中查找匹配的字符串。Python里数量词默认是贪婪的(在少数语言里也可能是默认非...转载 2019-05-21 10:54:38 · 575 阅读 · 0 评论 -
scrapy常用settings.py
settings.pyscrapy的配置有点多,这里列出常用的选项# 控制日志级别 (ERROR WARNING INFO DEBUG)LOG_LEVEL = 'DEBUG'# LOG_FILE = 'scrapy.log'# 自定义 超时 时间DOWNLOAD_TIMEOUT = 15# 不遵守 robots 协议ROBOTSTXT_OBEY = False# 不...原创 2019-05-09 19:07:54 · 267 阅读 · 0 评论 -
selenium爬取 阿里巴巴 商品目录页面
仅仅是获取商品目录,不需要登陆逻辑很简单,打开首页,点击更多,逐层把目录的内容爬下来,同时编好关联的ID注意:使用mongodb存储(因为不需要先建库,省事儿)tqdm添加进度条,好看点不加载图片无头浏览器忽略一些警告模拟手机from selenium import webdriverfrom scrapy import Selectorimport timeimpor...原创 2019-04-17 09:15:25 · 1025 阅读 · 0 评论 -
selenium爬取新浪微博
逻辑很简单,先登录之后,搜索一个关键字,爬取内容注意使用mongodb数据库,注意update_one自带去重。tqdm添加进度条无头浏览器不加载图片使用scrapy的selector解析页面from selenium import webdriverfrom scrapy import Selectorimport timeimport pymongofrom tqd...原创 2019-04-17 09:08:12 · 1550 阅读 · 1 评论 -
003 pandas 数据清洗常用
操作数据库实例import pandas as pdfrom sqlalchemy import create_engineconn = create_engine( 'mysql+pymysql://root:xxxxxx@localhost:3306/testdb?charset=utf8')# 从数据库读取# data = pd.read_sql('select * f...原创 2019-04-01 18:18:03 · 164 阅读 · 0 评论 -
002 pandas初步数据清洗
文章目录删除 dropna()填充 fillna()Python字符串处理pandas字符串处理删除 dropna()填充 fillna()Python字符串处理pandas字符串处理原创 2019-03-06 19:40:41 · 735 阅读 · 1 评论 -
Python3.5升级3.6
Python3.5升级3.6apt-get remove --purge python3.5* -yapt install python3.6 -y确认一下软连接cd /usr/binrm python3ln -s python3.6 python3然后执行以下wget https://bootstrap.pypa.io/get-pip.pysudo python3.6 ge...原创 2019-03-08 18:46:08 · 5534 阅读 · 0 评论 -
001 pandas 输入输出文件
文章目录pandas 读写文件pandas读取文件read_csv/read_table参数pandas 读写文件pandas读取文件read_csv/read_table参数原创 2019-03-05 16:04:28 · 4884 阅读 · 0 评论 -
同时操作多个表
某次数据处理时候,需要把一张大表切分到 多个小表中。import pymysqldb = pymysql.connect("xx.xx.xx.xx", "root", "root", "backup3")cursor = db.cursor()# 对原来存在的很多小表批量操作db_name = 'backup3'sql_get_all_tables = f"select tabl...原创 2019-03-05 11:38:52 · 504 阅读 · 0 评论 -
切割地址,手机号归属地,IP归属地
手机号码 获取 归属地pip install phonefrom phone import PhoneP = Phone()def get_pc(ss): # s : '13565656565' # get provice and city try: res = P.find(ss) if res: pr...原创 2019-03-05 11:29:44 · 365 阅读 · 0 评论 -
matplotlib 常见用法
简单的用法,常用于数据分析。如果你想要炫酷,请移步隔壁 javascriptmatplotlib先绘制一个底板一次性绘制多个图方法一方法二四种常见的图形三维图先绘制一个底板# 绘制一个底板import matplotlib.pyplot as pltplt.figure(figsize=(5,3),dpi=144)plt.title('hello world')plt.show...原创 2019-08-05 20:54:32 · 267 阅读 · 0 评论