自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 收藏
  • 关注

原创 pymsql 连接参数详解

创建数据库连接import pymysqlconnection = pymysql.connect(host='localhost',port=3306,user='root',password='root',db='demo',charset='utf-8')其中常用参数如下:参数 描述 host 数据库服务器地址,默认 localhost user 用户名,默认为当前程序运行用户 password 登录密码,默认为空字符串 database.

2020-11-03 21:46:30 3072

原创 解决AttributeError: ‘list‘ object has no attribute ‘shape‘

问题解释:AttributeError: 'list' object has no attribute 'shape'属性错误:“list”对象没有属性“shape”解决方法:用过numpy 或者pandas 就可知 np.array 或者 dataframe有shape,可以为多维,而list是一维,不能转换如果需要转换,list转换为dataframe例子:a = [['a', 'b', 'c'], ['1', '2', '3'], ['张三', '张三', ...

2020-10-29 17:16:46 28010

原创 sklearn 载入模型 No module named ‘sklearn.liner_model‘问题

使用sklearn 的joblib模块载入模型时错误提示No module named 'sklearn.liner_model'主要原因:sklearn版本不对如果使用0.21版本 为from sklearn.externals import joblib0.23版本为import joblib注意:sklearn保存和载入模型 joblib 需要在同一版本下进行...

2020-10-29 16:58:15 7379

原创 查找相互关注的人-sql面试题

有这样一张用户表user:关注者 被关注者 张三 赵五 李四 张三 .... .... 查找互相关注的人主要考察left joinselect a.关注者,a.被关注者 from user aleft join user b on a.关注者=b.被关注者 and a.被关注者=b.关注者...

2020-09-13 20:07:22 1584

原创 查询第二高薪水,若不存在则返回null-sql面试题

id salary 1 100 ....... ...... 34 300 有这样一张表A主要考察子查询和limit 用法select id,(select distinct salary as second from A order by salary desc limit 1,1)#limit 第一个参数1是从第几个开始截取(从0开始计算) 第二个参数1是截取多少位...

2020-09-07 21:30:42 683

原创 横表和纵表互相转换-sql面试题

有这样一张横表Aname course score 小明 英语 64 小明 语文 45 小明 数学 43 小红 英语 34 小红 语文 76 小红 数学 56 需要转换成如下B表:name 语文 数学 英语 小明 45 43 64 小红 76 56 34 这里主要考察 case when的用法selec...

2020-09-07 21:14:19 211

原创 pandas 设置数据框显示最大条数不限制

import pandas as pdpd.options.display.max_columns = None #列数pd.options.display.max_rows = None #行数

2020-04-08 10:33:53 2251

原创 pandas 转置

在Dataframe中,有时需要行和列进行互换,也称为转置,可以data = data.T即可

2020-04-02 11:29:43 3207

原创 pandas 根据条件筛选字段

有时候需要根据某些条件筛选数据 input_data_input = input_data[input_data['类型']=='投产前']解释:input_data['类型']为条件字段,即根据该字段进行筛选=='投产前' 为条件,如果为数值型 可以用 > <...

2020-04-02 11:24:26 2180

原创 pandas group by 按指定列聚合

有时候需要根据某列 去聚合计算数据input_data_output = input_data_output.groupby(by=['地址'])['工单权重'].sum()解释:groupby(by=['地址']) 为根据哪个字段去聚合['工单权重'].sum()为需要聚合的数据...

2020-04-02 11:19:51 5423

原创 pandas按指定列求和

在pandas中Dataframe下,有时候需要指定列或某几列求和时,可以指定该列的位置进行求和code_table_data['权重'] = code_table_data.iloc[:,3:6].sum(axis=1)解释:code_table_data['权重'] 为该数据设置新的一列code_table_data.iloc[:,3:6] 为指定该数据哪些列需要求和...

2020-04-02 11:17:07 29681 3

转载 数组和线性表的区别

一、数组数组就是相同数据类型的元素按一定顺序排列的集合。 就是物理上存储在一组联系的地址,也称为物理结构上的数据结构二、线性表线性表中数据元素之间的关系是一对一的关系,即除了第一个和最后一个数据元素之外,其它数据元素都是首尾相接的。 线性表是数据结构中的逻辑结构。可以存储在数组上,也可以存储在链表上。实现线性表的两种模型:将表中元素顺序的存放在一大块连续的存储区里,这样实现的表...

2019-03-27 11:10:15 8742 4

原创 pandas 消除重复数据

有这样一组重复数据:一、消除重复数据使用drop_duplicates方法(DataFrame.drop_duplicates(subset=None, keep='first', inplace=False))subset参数:根据哪个字段进行重复筛选(多个字段就写成列表形式)inplace参数:是否在原数据集更改keep参数:是从头开始筛选还是从末尾数据开始筛...

2019-03-10 16:58:57 9685

原创 数据产品 面试 爱奇艺

爱奇艺 数据产品实习生自我介绍 3分钟问业务方面的内容,两个问题:1.去年过年时期的活跃用户比今年的多,分析原因(从内部数据分析 ,不从竞品分析) 2.去年广告收入比今年高,但流量比去年多,分析原因内连接,外连接,交叉连接,交叉连接会造成什么后果说两个,可以优化查询的方法如果各个...

2019-03-08 20:04:55 528

原创 pandas 求和,求平均,统计

有这样一张表:求和,求平均:import pandas as pdstudent = pd.read_excel("C:/Users/Administrator/Desktop/Students.xlsx",index_col="ID")temp = student[["Test_1","Test_2","Test_3"]]student["total"] = temp

2019-02-24 13:55:52 114907 2

原创 pandas 分割数据表

有这样一张表要将姓和名分开存放:shi使用Series.str.split(pat=None, n=-1, expand=False):参数pat为按照参照什么符号来分,expand=true返回dataframe,fales返回series,n为切出来的字符串保留个数最终将字符串加到数据表里:参考官网...

2019-02-24 10:47:41 6792

原创 panads多表联合查询

有这样一个数据集:两张表用ID关联着一、通过ID联合查询import pandas as pdstudents = pd.read_excel("C:/Users/Administrator/Desktop/Student_Score.xlsx",sheet_name="Students")scores = pd.read_excel("C:/Users/Administra...

2019-02-16 11:42:15 1976

原创 内连接 外连接 交叉连接

一.内连接:结果仅包含连接条件的两表中的行(如果用vn图就是两图的交集)     表A inner join 表B二.外连接:结果包含符合条件的行,同时包含不符合条件的行    1.左外连接:左表全部行+右表匹配的行,如果左表中某行没有匹配的行,则右表该行显示null(表A left join 表B)    2.右外连接:与左外连接相反(表A right join 表B)   ...

2019-02-12 22:32:28 218

原创 主键、外键和索引区别

  主键 外键 索引 定义 唯一标识一条记录,不能有重复的,不允许为空 表的外键是另一表的主键, 外键可以有重复的, 可以是空值 该字段没有重复值,但可以有一个空值 作用 用来保证数据完整性 用来和其他表建立联系用的 是提高查询排序的速度 个数 主键只能有一个 一个表可以有多个外键 一个表可以有多个惟一索引  ...

2019-02-12 22:26:37 906

原创 panads 数据筛选 过滤

有这样一数据集: 筛选age 在18到30,score在85到100import pandas as pdstudents = pd.read_excel("C:/Users/Administrator/Desktop/Students.xlsx",index_col="ID")students = students.loc[students.Age.apply(lambda ...

2019-01-31 08:49:20 476

原创 pandas 数据多重排序

有这样数据集:按照Price和Worthy排序import pandas as pdproducts = pd.read_excel("C:/Users/Administrator/Desktop/List.xlsx",index_col="ID")products.sort_values(by=["Worthy","Price"],inplace=True,ascending...

2019-01-31 08:40:40 2720

原创 pandas 函数填充 计算列

首先是这样一个数据集:进行价格计算:import pandas as pdbooks = pd.read_excel("C:/Users/Administrator/Desktop/Books.xlsx",index_col="ID")books.Price = books.ListPrice*books.Discountbooks["Price"] = books["Li...

2019-01-27 21:32:01 1131

转载 TF-IDF原理

TF-IDF词频-逆文件频率一个词语在一篇文章中出现次数越多,同时在所在文档中出现次数越少,越能够代表该文章。 词频  某一个给定的词语在该文件中出现的次数,这个数通常会被归一化(一般是词频除以文章总词数),以防止它偏向长文件(同一个词语在长文件里可能比短文件有更高的词频,而不管词语是否重要) TF w= 在某一类中词条 w 出现的次数 / 该类中所有的词条数目 逆...

2019-01-27 19:24:00 245

转载 SQL union 和union all 区别

UNION 操作符用于合并两个或多个 SELECT 语句的结果集。UNION 内部的 SELECT 语句必须拥有相同数量的列。列也必须拥有相似的数据类型。每条 SELECT 语句中的列的顺序必须相同。UNION ALL 允许表与表合并重复值存在参考网站:http://www.w3school.com.cn/sql/sql_union.asp ...

2019-01-22 11:05:10 107

转载 ubuntu16.04安装opencv3.4.1教程

按照这个教程即可:https://blog.csdn.net/cocoaqin/article/details/78163171如上教程完成后,运行程序如出现:If you are on Ubuntu or Debian, install libgtk2.0-dev and pkg-config, then re-run cmake or configure script in functio...

2019-01-22 08:47:09 331

原创 pyltp安装问题

在windows10下直接安装会提示:error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools如果去官网安装,会非常大,我们可以直接安装whee...

2019-01-13 17:52:45 631 1

转载 python 运算符优先级

以下所列优先级顺序按照从低到高优先级的顺序;同行为相同优先级。1 Lambda #运算优先级最低 2 逻辑运算符: or 3 逻辑运算符: and 4 逻辑运算符:not 5 成员测试: in, not in 6 同一性测试: is, is not 7 比较: &lt;,&lt;=,&gt;,&gt;=,!=,== 8 按位或: | 9 按位异或: ^10 按位与: &a...

2019-01-11 17:55:16 869

原创 AttributeError: module 'pip' has no attribute 'main'如何解决

由于pip 10版本中没有main(),如果在不降级的情况下,修改这个文件C:\Program Files\JetBrains\PyCharm Community Edition 2017.3.3\helpers\packaging_tool.py(在你pycharm的安装路径里找) #####头部加上import pip._internal as pip_new####然后分...

2018-12-18 12:37:15 268

转载 错误:You can't specify target table 'xxx' for update in FROM clause的解决

    https://www.cnblogs.com/pcheng/p/4950383.html

2018-12-18 12:30:25 508

原创 pandas 数据区域读取和数字填充

一.数据区域读取和数据填充有时候excel文件数据杂乱: 用pandas区域读取和填充:import pandas as pdfrom datetime import timedelta,datedata = pd.read_excel("C:/Users/Administrator/Desktop/Books.xlsx",encoding="utf-8",skiprow...

2018-12-18 09:02:18 2967

原创 pandas读取excel文件

首先我们读取以下excel文件:有六个字段和19973条数据在pycharm中读取代码如下:import pandas as pdpeople = read_excel("C:/Users/Administrator/Desktop/People.xlsx")#读取print(people.shape)#查看数据维度print(people.columns)#查看数据...

2018-12-13 08:52:50 11307

原创 pandas创建excel文件

pandas包是python中用于数据分析的包创建excel文件代码如下:import pandas as pddf = Dateframe({"id":[1,2,3],"name":["Nick","Bob","Tom"})df.to_excel("路径名+文件名")print(done!)print(df)df为数据集,写入以后就可以打开所创建的文件,会发

2018-12-12 08:40:16 12074 6

原创 distinct 和 group by 选取多个字段问题

一.distinct选取多个字段distinct 只能对一个字段进行去重复操作,对于多个字只能消除这多个字段值全部相同的记录,否则会出现以下结果 对于多个字段distinct百度一大推:https://www.cnblogs.com/warioland/archive/2012/05/30/2526128.html二.group by 选取多个字段问题在MYSQL中使用G...

2018-12-08 22:48:06 3090

原创 sql去重

一.数据库清洗去重在数据库里清洗时,会用到DELETE语句进行操作,很多时候需要删除重复记录保存,保存一条。百度之后有些语句会报错,直到发现一个在实战中可以用不会报错的,并且跑起来很快的一条sql语句DELETE consum_recordFROM consum_record, ( SELECT min(id) id, user_id, monetary,...

2018-12-08 11:28:50 10913

原创 hive与hbase的联系和区别

共同点:1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储区别:1.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统,HBase是为了支持弥补Hadoop对实时操作的缺陷的项目 。2.想象你操作RMDB数据库,如果是全表扫描,就用Hive+Hadoop,如果是索引访问,就用HBase+Hadoop3....

2018-12-05 09:04:53 227

原创 hive 修改字段类型和增加字段表

Hive 表修改字段类型Alter table 表名  change column 原字段名称  现字段名称  数据类型 新增字段表alter table 表名 add columns(字段名 数据类型)  

2018-12-04 15:34:13 91105 1

原创 hive 导入sql,text,csv文件

hive执行sql文件方法1: hive -f sql文件   ddl.sql 文件内容:    CREATE TABLE TEAM_MEMBER ( ID BIGINT COMMENT "主键",COMPANY_ID ...

2018-11-29 22:24:13 3189

原创 ubuntu 16.04 下载与安装

接触算法的同时接触了linux。现在也正在用,mooc这个课程提供Ubuntu双系统和虚拟机的安装教学视频  网址:https://www.icourse163.org/course/PKU-1002536002       ...

2018-11-24 12:48:23 687

原创 开启写博客之旅

  作为2019年毕业生的我,现在才开始接触写博客,说实话很惭愧,在一个非双的二本学校度过了两年的蜜月期,很让我后悔,但大二减肥30斤很让我收益,明白了自己的方向和目标,也知道了自律带来的好处,使得大三是一个全新的开始。现在孤身一人来到北京实习,正朝着数据分析的方向努力着,不知道未来会怎样,但我喜欢这种无限可能的感觉。记录下我的北漂生活,记录下我的遇到的问题,加油...

2018-11-24 11:53:10 144

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除