自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 连接数据库

import pymysqlimport pandas as pddef get_mysql_data(sql): """ 提取mysql中的数据并返回成dataframe 参数只需要sql语句 """ conn = pymysql.connect( host='*********', user='******', password='*********', db='*********',

2021-01-18 11:11:26 137

原创 Python3-Cookbook-Study Notes chap6:数据编码和处理

1.读写CSV数据import csvwith open('stocks.csv') as f: f_csv = csv.reader(f) headers = next(f_csv) for row in f_csv: # Process row ...2.读写JSON数据import jsonjson_str = json.dumps(data)3.解析简单的XML数据from urllib.request import urlo

2020-06-23 11:26:03 153

原创 Python3-Cookbook-Study Notes chap5:文件与IO

1.读写文本数据# 使用带有 rt 模式的 open() 函数读取文本文件# Read the entire file as a single stringwith open('somefile.txt', 'rt') as f: data = f.read()# Iterate over the lines of the filewith open('somefile.txt', 'rt') as f: for line in f: # process line

2020-06-06 17:37:25 165

原创 Python3-Cookbook-Study Notes chap4:迭代器与生成器

1.

2020-06-06 11:46:01 132

原创 Python3-Cookbook-Study Notes chap3:数字日期和时间

1.数字的四舍五入 —— round(value, ndigits)2.执行精确的浮点数运算# 想更加精确(并能容忍一定的性能损耗) —— decimal 模块from decimal import Decimal# decimal 模块的一个主要特征是允许你控制计算的每一方面,包括数字位数和四舍五入运算a = Decimal('4.2')b = Decimal('2.1')3.数字的格式化输出# 格式化输出单个数字的时候,可以使用内置的 format() 函数x = 1234.567

2020-06-05 21:38:24 181

原创 Python3-Cookbook-Study Notes chap2:字符串和文本

1.使用多个界定符分割字符串 —— re.split()import re# re.split()为分隔符指定多个正则模式line = 'asdf fjdk; afed, fjek,asdf, foo're.split(r'[;,\s]\s*', line)# ['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']# 需要特别注意的是正则表达式中是否包含一个括号捕获分组。 如果使用了捕获分组,那么被匹配的文本也将出现在结果列表中fields = re

2020-06-04 20:48:57 214

原创 Python3-Cookbook-Study Notes chap1:数据结构和算法

1.数据结构的集合操作模块 —— collections2.解压可迭代对象赋值给多个变量 —— 使用星号表达式# 剔除最高最低分,统计平均分def drop_first_last(grades): first,*middle,last = grades # middle是一个列表类型变量 return avg(middle)3.字符串分割 —— line.split(’:’)保留有限历史记录 —— collections.deque# 在多行上面做简单的文本匹配, 并返回匹配所在行的最后

2020-06-04 13:55:08 252

原创 python 技巧学习-2020.06

1.字符串清洗df.translate(character_map)# unicodedata 包:combining()函数2.对迭代器进行切片import itertoolss = itertools.islice(range(50),10,20)

2020-06-03 20:44:51 142

原创 数据分析学习-数据清洗7步法

Step1 : read csvdata_raw = pd.read_csv('../input/titanicdataset-traincsv/train.csv')data_rawStep2 : preview datadata_raw.info()data_raw.describe(include='all')Step3: check null value for every...

2020-04-07 21:39:00 336

原创 python-Pandas_Study Record

2020-04-07读取时抽取1%import pandas as pdimport numpy as npdf = pd.read_csv("big_data.csv", # 使用skiprows参数skiprows = lambda x:x>0 and # x>0保证首行选入np.random.rand() > 0.01)...

2020-04-07 21:16:16 126

原创 玩转numpy

numpy - 通用1. 忽略所有numpy警告defaults = np.seterr(all="ignore")numpy - 数组1. 创建数组# 创建一个10*10的0数组Z = np.zeros((10,10))print(Z)# 长度为10的0数组,第4个值为1Z = np.zeros(10)Z[3] = 1# 创建一个从0到8的3*3数组Z = np.a...

2019-12-27 10:59:55 931

原创 pandas DataFrame 数据筛选

数值筛选单条件筛选# 筛选B列大于0的数据df[df['B'] > 0]多条件筛选# 筛选B列大于0且C列小于1的数据df[(df['B'] > 0) & (df['C'] < 1)]# 筛选B列大于0或C列小于1的数据df[(df['B'] > 0) | (df['C'] < 1)]# 选择某列等于多个数值或者字符串df[df['B...

2019-12-09 17:11:09 1782

原创 数据分析面试笔试资料汇总

网易-数据分析师笔试1、一堆石子,共80颗、甲乙轮流取,每次只能取2、4、6颗,最后取的人赢,甲先取,则谁赢?Ans:乙必赢。只需要保证最后剩8枚就胜了,要保证最后剩8枚,则必须要保证每一个回合内取的数是一个可控的固定数,显然这个数字是8,所以只需要保证第一次取完后,剩下的数字是8的倍数,就一定能胜。80除以8正好除尽,故而,无论甲去的是多少,乙都能保证每回合取的数为8,最后取完的人一定是乙。...

2019-04-18 16:28:40 831

原创 记录一下我的数据分析师养成之路

学习书目《统计学》很好的统计学入门书籍,对统计学的基础概念介绍的很详细,浅显易懂大概5-8个小时就可以快速看完。《R语言实战》本科上学用R语言的时候参考过一点这本书,重新系统看了一遍还是很不错的书。《SQL必知必会》...

2019-04-18 15:04:41 623

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除