![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
data_science
乱写乱画
一个用来记录笔记的博客
展开
-
pandas数据处理--将txt中的数据进行去重统计数量
import pandas as pdimport numpy as npfrom openpyxl import load_workbookimport osimport reclass doWork: def __init__(self): self.txt_file_dir = "txt_file" self.excel_name1 = r"template.xlsx" # 模板文件 self.excel_name2 = r"sta.原创 2020-08-10 19:07:44 · 1186 阅读 · 0 评论 -
Python 爬虫处理base64加密,解密方法
import base64import timectime = str(time.time())user_str = str({'user':user, 'user_type':user_type, 'user_id':user_id})# 加密token = base64.b64encode(user_str.encode(encoding='utf-8')).decode()# 解密user_str = base64.b64decode(token.encode(encoding='u.原创 2020-07-28 09:47:58 · 1267 阅读 · 1 评论 -
pandas 将两数据表进行拼接
将两文本内容以下图为例合并,空值补0:import pandas as pddef go(path1, path2, new_file_name): df1 = pd.read_csv(path1, encoding="utf-8") df2 = pd.read_csv(path2, encoding="utf-8") columns = df1.columns df_obj = pd.concat([df1,df2], sort=False) ..原创 2020-07-24 15:55:33 · 524 阅读 · 0 评论 -
python 数据处理时去除emoji表情
方法一:emoji处理库,emoji官网:https://pypi.org/project/emoji/#安装 pip install emoji官方例子如下:清除命令:emoji.demojize(str)方法二:def filter_emoji(desstr,restr=''): #过滤表情 try: co = re.compile(u'[\U00010000-\U0010ffff]') except ..原创 2020-05-27 11:27:28 · 2117 阅读 · 0 评论 -
Python jieba分词使用方法记录
方法说明:jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细,待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。...原创 2020-04-27 18:42:45 · 371 阅读 · 0 评论 -
初识数据分析之pandas笔记五 索引、选取和过滤
来源:《利用Python进行数据分析·第2版》In [133]: obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])In [134]: objOut[134]:a 0.0b 1.0c 2.0d 3.0dtype: float64In [135]: obj['b']Out[135]:...翻译 2019-12-20 17:45:40 · 160 阅读 · 0 评论 -
初识数据分析之pandas笔记四 丢弃指定轴上的项
来源:《利用Python进行数据分析·第2版》丢弃某条轴上的一个或多个项很简单,只要有一个索引数组或列表即可。由于需要执行一些数据整理和集合逻辑,所以drop方法返回的是一个在指定轴上删除了指定值的新对象:In [117]: objOut[117]:a 0.0b 1.0c 2.0d 3.0e 4.0dtype: float64In [118...翻译 2019-12-20 17:28:14 · 146 阅读 · 0 评论 -
初识数据分析之pandas笔记三 索引
来源:《利用Python进行数据分析·第2版》pandas的索引对象负责管理轴标签和其他元数据(比如轴名称等)。构建Series或DataFrame时,所用到的任何数组或其他序列的标签都会被转换成一个Index:In [79]: obj = pd.Series(range(3), index=['a', 'b', 'c'])In [81]: index = obj.indexIn...翻译 2019-12-20 17:06:43 · 156 阅读 · 0 评论 -
初识数据分析之pandas笔记二 DataFrame数据结构
来源:《利用Python进行数据分析·第2版》DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。DataFrame中的数据是以一个或多个二维块存放的(而不是列表、字典或别的一维数据结构)。有关DataFrame内部的技术细节远远超出了本书...翻译 2019-12-20 15:50:03 · 477 阅读 · 0 评论 -
初识数据分析之NumPy 笔记七 随机漫步
来源:《利用Python进行数据分析·第2版》我们通过模拟随机漫步来说明如何运用数组运算。先来看一个简单的随机漫步的例子:从0开始,步长1和-1出现的概率相等。下面是一个通过内置的random模块以纯Python的方式实现1000步的随机漫步:In [146]: position = 0In [147]: walk = [position]In [148]: steps = ...翻译 2019-12-18 15:50:03 · 332 阅读 · 0 评论 -
初识数据分析之NumPy 笔记六 伪随机数生成
来源:《利用Python进行数据分析·第2版》numpy.random模块对Python内置的random进行了补充,增加了一些用于高效生成多种概率分布的样本值的函数。例如,你可以用normal来得到一个标准正态分布的4×4样本数组:In [113]: samples = np.random.normal(size=(4, 4))In [114]: samplesOut[114]:...翻译 2019-12-17 11:50:26 · 130 阅读 · 0 评论 -
初识数据分析之NumPy 笔记五 线性代数
来源:《利用Python进行数据分析·第2版》线性代数(如矩阵乘法、矩阵分解、行列式以及其他方阵数学等)是任何数组库的重要组成部分。不像某些语言(如MATLAB),通过*对两个二维数组相乘得到的是一个元素级的积,而不是一个矩阵点积。因此,NumPy提供了一个用于矩阵乘法的dot函数(既是一个数组方法也是numpy命名空间中的一个函数):矩阵乘法:In [99]: x = np.a...翻译 2019-12-17 11:06:10 · 145 阅读 · 0 评论 -
初识数据分析之NumPy 笔记四 利用数组进行数据处理
来源:《利用Python进行数据分析·第2版》NumPy数组使你可以将许多种数据处理任务表述为简洁的数组表达式(否则需要编写循环)。用数组表达式代替循环的做法,通常被称为矢量化。一般来说,矢量化数组运算要比等价的纯Python方式快上一两个数量级(甚至更多),尤其是各种数值计算。在后面内容中(见附录A)我将介绍广播,这是一种针对矢量化计算的强大手段。作为简单的例子,假设我们想要在一组值(网...翻译 2019-12-17 10:20:09 · 205 阅读 · 0 评论 -
初识数据分析之NumPy笔记三 数组的通用函数
来源:《利用Python进行数据分析·第2版》通用函数(即ufunc)是一种对ndarray中的数据执行元素级运算的函数。你可以将其看做简单函数(接受一个或多个标量值,并产生一个或多个标量值)的矢量化包装器。许多ufunc都是简单的元素级变体,如sqrt和exp:In [1]: import numpy as npIn [2]: arr = np.arange(10)In [...翻译 2019-12-16 18:06:07 · 162 阅读 · 0 评论 -
初识数据分析之pandas笔记一 Series数据结构
来源:《利用Python进行数据分析·第2版》Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据即可产生最简单的Series:In [1]: import pandas as pdIn [2]: obj = pd.Series([4, 7, -5, 3])In [3]: objOut[3]:0 ...翻译 2018-07-10 18:05:01 · 428 阅读 · 0 评论 -
初识数据分析之NumPy 笔记二 数组的基本的索引和切片
来源:《利用Python进行数据分析·第2版》NumPy数组的索引是一个内容丰富的主题,因为选取数据子集或单个元素的方式有很多。一维数组很简单。从表面上看,它们跟Python列表的功能差不多:In [1]: import numpy as npIn [2]: arr = np.arange(10)In [3]: arrOut[3]: array([0, 1, 2, 3, 4, ...翻译 2018-06-01 09:18:05 · 597 阅读 · 1 评论 -
初识数据分析之NumPy 笔记一 ndarray一种多维数组对象
来源:《利用Python进行数据分析·第2版》numpy -- Numerical Python 数值的pythonnumpy弥补了作为通用编程语言的python在数值计算方面能力弱,速度慢的能力不足numpy VS Python测试代码import datetime as dtimport numpy as np # np是约定俗成的n = 100000start = d...翻译 2018-05-17 20:44:58 · 605 阅读 · 0 评论