2017年03月_Claroja

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Pandas 数据框增、删、改、查、去重、抽样基本操作

import pandas as pddf = pd.DataFrame({'a': [1, 2, 3], 'b': ['a', 'b', 'c'],'c': ["A","B","C"]})print(df) a b c0 1 a A1 2 b B2 3 c C选择某一行print(df.loc[1,:])a 2b bc BName:

2017-03-24 22:28:07 63876

原创 pandas基本操作函数

python pandas基本函数查看数据 .head() .tail() .shape .describe() 矩阵运算 .add() .sub() .mul() .div() .divmod() .combine() 矩阵比较 .eq() .ne() .lt()

2017-03-23 21:26:33 7439

原创 Pandas 描述统计函数

在Pandas中三个对象的轴参数规定如下: Series: 没有轴参数 DataFrame: “index” (axis=0, default), “columns” (axis=1) Panel: “items” (axis=0), “major” (axis=1, default), “minor” (axis=2) 统计描述参数如下: Function

2017-03-23 21:23:23 9297

原创 Python string字符串

Python 文本数据处理函数方法函数字符串连接 cat() 复制字符串 repeat() 字符串计数 count() 大小写转换 lower() upper() capitalize(

2017-03-23 21:21:19 2286

原创 Pandas 文本数据方法 is*()

Series.str.isalnum()是否全是数字和字母的组合 Series.str.isalpha()是否全是字母 Series.str.isdigit()是否全是数字?? Series.str.isspace()是否全是空白 Series.str.islower()是否全是小写 Series.str.isupper() 是否全是大写 Series.str.istitle()

2017-03-23 21:16:02 774

原创 Pandas 求余运算

divmod(a, b)求余s = pd.Series(np.arange(10))print(s)0 01 12 23 34 45 56 67 78 89 9dtype: int64div, rem = divmod(s, 3)print(div)0 01 02 03 14

2017-03-23 20:21:55 3135

原创 Pandas 矩阵运算

DataFrame.add(other, axis=’columns’, level=None, fill_value=None) DataFrame.sub(other, axis=’columns’, level=None, fill_value=None) DataFrame.mul(other, axis=’columns’, level=None, fill_value=None)

2017-03-23 20:19:23 24222

原创 Excel转html

将Excel转换成HTML之后写markdown的表格就很容易了转换的网站是: http://pressbin.com/tools/excel_to_html_table/index.html

2017-03-23 16:17:51 1396

原创 Pandas 文本数据方法 capitalize( ) lower( ) upper( )

Series.str.capitalize()首字母大写 Series.str.lower()全部小写 Series.str.upper()全部大写import pandas as pds = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', 'CABA', 'dog', 'cat'])print(s.str.capitalize())print(s

2017-03-23 11:09:00 12685

原创 Pandas 文本数据方法 find( ) rfind( ) index( ) rindex( )

Series.str.find(sub, start=0, end=None)查找字符串的下标,从左计数 Series.str.rfind(sub, start=0, end=None)查找字符串的下标,从右计数参数: sub : 字符串 start : 整型,左边缘 end : 整型,右边缘返回: 序列Series/索引Indeximport pandas as pds =

2017-03-23 11:08:30 2628

原创 Pandas 文本数据方法 partition( )

Series.str.partition(pat=’ ‘, expand=True)从左边分割字符串,相比split保留分隔符 Series.str.rpartition(pat=’ ‘, expand=True)从右边开始分割参数: pat : 字符串,分割点 expand : 布尔值,决定返回类型返回: 数据框DataFrame/复杂索引MultiIndex/序列Serie

2017-03-22 20:36:31 1330

原创 Pandas 文本数据方法 strip( ) lstrip( ) rstrip( )

Series.str.strip(to_strip=None)去除两边空白 Series.str.lstrip(to_strip=None)去除左边空白 Series.str.rstrip(to_strip=None)去除右边空白>>> ' spacious '.strip()'spacious'>>> 'www.example.com'.strip('cmowz.')'examp

2017-03-22 20:32:33 6257

原创 Pandas 文本数据方法 extract( ) extractall( )

Series.str.extract(pat, flags=0, expand=None)参数: pat : 字符串或正则表达式 flags : 整型, expand : 布尔型,是否返回数据框 Returns: 数据框dataframe/索引indexSeries.str.extractall(pat, flags=0) 参数: pat : 字符串或正则表达式 flags :

2017-03-22 20:26:34 31432 2

原创 Pandas 文本数据方法 findall( )

Series.str.findall(pat, flags=0, **kwargs) 参数: pat : 字符串或正则 flags : 整型, 返回: 序列Series/索引Index of listsimport pandas as pds = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', 'CABA', 'dog', 'cat'])prin

2017-03-22 20:05:38 6159 2

原创 Pandas 文本数据方法 startswith( ) endwith( )

Series.str.startswith(pat, na=nan)查看元素是否以…开头参数: pat : 字符串 na : 布尔值返回: 序列Series/向量arraySeries.str.endswith(pat, na=nan)查看元素是否以…结尾参数: pat : 字符串 na : 布尔值返回: 序列Series/向量array

2017-03-22 19:53:47 9180

原创 Pandas 文本数据方法 count( )

Series.str.count(pat, flags=0, **kwargs) 参数: pat : 字符串或正则 flags : 整型 Returns: 序列Series/索引Index

2017-03-22 19:50:02 2771

原创 Pandas 文本数据方法 slice( )

Series.str.slice(start=None, stop=None, step=None)按下标截取字符串参数: start : 整型或缺省 stop : 整型或缺省 step : 整型或缺省 Returns: 序列Series/索引IndexSeries.str.slice_replace(start=None, stop=None, repl=None)按下标替换参

2017-03-22 19:46:34 6837

原创 Pandas 文本数据方法 wrap( )

Series.str.wrap(width, **kwargs)包裹字符串参数: width : 整型,最小字符串长度 expand_tabs : 布尔型, 默认为True,tab也会被包裹 replace_whitespace : 布尔型,默认为True,空白会被空格替换 drop_whitespace : 布尔型,默认为True,?? break_long_words : 布尔型

2017-03-22 19:38:58 775

原创 Pandas 文本数据方法 pad( ) center( ) ljust() rjust() zfill()

Series.str.pad(width, side=’left’, fillchar=’ ‘)设置字符串的宽度参数: width : 整型,字符串最小的宽度 side : {‘left’, ‘right’, ‘both’}填充的方向 fillchar : 字符串,空白的地方填充的东西返回值: 序列Series/索引Indeximport pandas as pds = pd.S

2017-03-22 19:09:29 2384

原创 Pandas 文本数据方法 repeat( )

Series.str.repeat(repeats)复制字符串参数: repeats : 整型或者向量,整型是每个都复制相同的次数,向量则是可以设置每个元素的次数返回值: 序列Series/索引

2017-03-22 18:58:22 2200

原创 Pandas 文本数据方法 replace( )

Series.str.replace(pat, repl, n=-1, case=True, flags=0)替换指定字符参数: pat : 字符串,要替换的值可以是正则表达式 repl : 字符串,替换值 n : 整型, 要替换几处(默认-1,表示所有都要替换) case : 布尔值, 如果为True则是严格替换 flags : 整型, 如果为0则没有flags 返回值: 序列

2017-03-22 18:54:04 3743

原创 Pandas 文本数据方法 contains()

Series.str.contains(pat, case=True, flags=0, na=nan, regex=True)是否包含查找的字符串参数: pat : 字符串/正则表达式 case : 布尔值, 默认为True.如果为True则匹配敏感 flags : 整型,默认为0(没有flags) na : 默认为NaN,替换缺失值. regex : 布尔值, 默认为True.

2017-03-22 18:48:33 16957

原创 Pandas 文本数据方法 get_dummies()

Series.str.get_dummies(sep=’|’)分割字符串并返回各个字符的复杂矩阵参数: sep : 字符串, 默认为“|” 返回值: 数据框(DataFrame)>>> Series(['a|b', np.nan, 'a|c']).str.get_dummies() a b c0 1 1 01 0 0 02 1 0 1

2017-03-22 18:35:35 3851

原创 Pandas 文本数据方法 join( )

Series.str.join(sep)在字符之间插入分隔符参数: sep : 字符串,要插入的分隔符返回值: 序列(Series)/索引(Index)import pandas as pds = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', 'CABA', 'dog', 'cat'])print(s.str.join(","))0

2017-03-22 17:54:54 1222

原创 Pandas 文本数据方法 get( )

get()从列表/元组/字符串中提取元素 Series.str.get(i)[source] 参数: i : 整型,代表提取元素的位置返回值: 索引(Index )/序列(Series)

2017-03-22 17:47:12 1569

原创 Pandas 文本数据方法 split（）rsplit（）

split（）分割列 Series.str.split(pat=None, n=-1, expand=False) 参数: pat : 字符串,默认使用空白分割. n : 整型,默认为-1,既使用所有的分割点分割 expand : 布尔值,默认为False.如果为真返回数据框(DataFrame)或复杂索引(MultiIndex);如果为True,返回序列(Series)或者索引(Inde

2017-03-22 17:41:45 15939 2

原创 Pandas 文本数据方法 cat()

cat()连接字符串参数: others : 列表或复合列表,默认为None,如果为None则连接本身的元素 sep : 字符串或者None,默认为None na_rep : 字符串或者 None, 默认 None。如果为None缺失值将被忽略。返回值: concat : 序列(Series)/索引(Index)/字符串(str)#如果连接的是两个序列，则会对应>>> Serie

2017-03-22 17:32:06 5361

原创 Pandas 基本文本数据处理

1.# 系列和索引配有一组字符串处理方法,使它容易操作数组的每个元素。或许最重要的是,这些方法自动排除失踪/ NA值。这里有一些字符串方法的例子：In [1]: s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])#小写方法In [2]: s.str.lower()Out[2]: 0

2017-03-22 17:00:19 3714

原创 Excel Txt 字符集设置

Excel Txt 字符集设置都是在保存文档的时候设置的，而默认的字符集设置则是根据当前的系统，一般我们的windows系统都是GBK编码。

2017-03-22 09:14:40 3988

原创 Eclipse字符集环境配置

Eclipse字符集环境配置

2017-03-22 09:08:59 430

原创 Pandas 分割字符串

构建数据框，我们要把b列以“-”分割成两列from pandas.core.frame import DataFramedf = DataFrame({"a" : ["1","2","3","4"], "b" : ["5-9","6-10","7-11","8-12"]})print (df) a b0 1 5-91 2 6-102 3 7-11

2017-03-21 21:31:22 11011 1

原创 Pandas将列表（List）转换为数据框（Dataframe）

Python中将列表转换成为数据框有两种情况：第一种是两个不同列表转换成一个数据框，第二种是一个包含不同子列表的列表转换成为数据框。第一种：两个不同列表转换成为数据框from pandas.core.frame import DataFramea=[1,2,3,4]#列表ab=[5,6,7,8]#列表bc={"a" : a, "b" : b}#将列表a，b转换成字典data=Dat

2017-03-21 11:37:22 270492 3

opencv_yolo3.part1.rar

opencv和yolo3的结合,因为需要用到权重等文件,比较大,所以分开打包,这是part1.

2019-08-20

opencv_yolo3.part2.rar

opencv和yolo3的结合,因为需要用到权重等文件,比较大,所以分开打包,这是part2.

2019-08-20

IDE直接和hadoop集群连接

hadoop可以使用IDE直接和集群连接,这样就可以直接在ide里进行测试了

2019-03-20

Win本地测试hadoop

Windows本地来测试hadoop的文件,方便进行快速的开发和迭代

2019-03-20

Linux提交hadoop任务

linux上传hadoop任务,总共包含了三个文件,分别是mapper,reducer,和jobsubmitter

2019-03-20

tesseract软件包

tesseract开发的工具包，包含了tesseract安装包，字体训练工具，以及一些验证码的样例

2018-10-10

java8安装包jdk-jre

-java8的开发环境

2018-10-10

文本挖掘资源

https://catalog.data.gov/dataset/consumer-complaint-database

2018-04-18

utf-8 unicode编码表

所有的utf-8 unicode编码,都可以在表里面查询,方便进行文本处理.

2018-03-26

linux tmux原版参考手册

tmux 英文参考手册

2017-06-14

iris数据集

博客里用到的数据集

2017-02-26

2016最新中国行政区划分

来源：国家统计局设管司发布时间：2016-08-09 11:28 发布地址：http://www.stats.gov.cn/tjsj/tjbz/xzqhdm/201608/t20160809_1386477.html 解压密码：http://blog.csdn.net/claroja 如有其他问题可以给我留言，或者联系我的QQ：63183535，亲手制作！

2016-12-12

CSDN 如何搜索自己感兴趣的问题回答？

2017-05-14

TA创建的收藏夹 TA关注的收藏夹

TA关注的人