glittledream-CSDN博客

原创 pymsql 连接参数详解

创建数据库连接import pymysqlconnection = pymysql.connect(host='localhost',port=3306,user='root',password='root',db='demo',charset='utf-8')其中常用参数如下：参数描述 host 数据库服务器地址，默认 localhost user 用户名，默认为当前程序运行用户 password 登录密码，默认为空字符串 database.

2020-11-03 21:46:30 3072

原创解决AttributeError: ‘list‘ object has no attribute ‘shape‘

问题解释：AttributeError: 'list' object has no attribute 'shape'属性错误：“list”对象没有属性“shape”解决方法：用过numpy 或者pandas 就可知 np.array 或者 dataframe有shape，可以为多维，而list是一维，不能转换如果需要转换，list转换为dataframe例子：a = [['a', 'b', 'c'], ['1', '2', '3'], ['张三', '张三', ...

2020-10-29 17:16:46 28010

原创 sklearn 载入模型 No module named ‘sklearn.liner_model‘问题

使用sklearn 的joblib模块载入模型时错误提示No module named 'sklearn.liner_model'主要原因：sklearn版本不对如果使用0.21版本为from sklearn.externals import joblib0.23版本为import joblib注意：sklearn保存和载入模型 joblib 需要在同一版本下进行...

2020-10-29 16:58:15 7379

原创查找相互关注的人-sql面试题

有这样一张用户表user：关注者被关注者张三赵五李四张三 .... .... 查找互相关注的人主要考察left joinselect a.关注者，a.被关注者 from user aleft join user b on a.关注者=b.被关注者 and a.被关注者=b.关注者...

2020-09-13 20:07:22 1584

原创查询第二高薪水,若不存在则返回null-sql面试题

id salary 1 100 ....... ...... 34 300 有这样一张表A主要考察子查询和limit 用法select id,(select distinct salary as second from A order by salary desc limit 1,1)#limit 第一个参数1是从第几个开始截取（从0开始计算）第二个参数1是截取多少位...

2020-09-07 21:30:42 683

原创横表和纵表互相转换-sql面试题

有这样一张横表Aname course score 小明英语 64 小明语文 45 小明数学 43 小红英语 34 小红语文 76 小红数学 56 需要转换成如下B表：name 语文数学英语小明 45 43 64 小红 76 56 34 这里主要考察 case when的用法selec...

2020-09-07 21:14:19 211

原创 pandas 设置数据框显示最大条数不限制

import pandas as pdpd.options.display.max_columns = None #列数pd.options.display.max_rows = None #行数

2020-04-08 10:33:53 2251

原创 pandas 转置

在Dataframe中，有时需要行和列进行互换，也称为转置，可以data = data.T即可

2020-04-02 11:29:43 3207

原创 pandas 根据条件筛选字段

有时候需要根据某些条件筛选数据 input_data_input = input_data[input_data['类型']=='投产前']解释：input_data['类型']为条件字段，即根据该字段进行筛选=='投产前' 为条件，如果为数值型可以用 > <...

2020-04-02 11:24:26 2180

原创 pandas group by 按指定列聚合

有时候需要根据某列去聚合计算数据input_data_output = input_data_output.groupby(by=['地址'])['工单权重'].sum()解释：groupby(by=['地址']) 为根据哪个字段去聚合['工单权重'].sum()为需要聚合的数据...

2020-04-02 11:19:51 5423

原创 pandas按指定列求和

在pandas中Dataframe下，有时候需要指定列或某几列求和时，可以指定该列的位置进行求和code_table_data['权重'] = code_table_data.iloc[:,3:6].sum(axis=1)解释：code_table_data['权重'] 为该数据设置新的一列code_table_data.iloc[:,3:6] 为指定该数据哪些列需要求和...

2020-04-02 11:17:07 29681 3

转载数组和线性表的区别

一、数组数组就是相同数据类型的元素按一定顺序排列的集合。就是物理上存储在一组联系的地址，也称为物理结构上的数据结构二、线性表线性表中数据元素之间的关系是一对一的关系，即除了第一个和最后一个数据元素之外，其它数据元素都是首尾相接的。线性表是数据结构中的逻辑结构。可以存储在数组上，也可以存储在链表上。实现线性表的两种模型：将表中元素顺序的存放在一大块连续的存储区里，这样实现的表...

2019-03-27 11:10:15 8742 4

原创 pandas 消除重复数据

有这样一组重复数据：一、消除重复数据使用drop_duplicates方法（DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)）subset参数：根据哪个字段进行重复筛选（多个字段就写成列表形式）inplace参数：是否在原数据集更改keep参数：是从头开始筛选还是从末尾数据开始筛...

2019-03-10 16:58:57 9685

原创数据产品面试爱奇艺

爱奇艺数据产品实习生自我介绍 3分钟问业务方面的内容，两个问题：1.去年过年时期的活跃用户比今年的多，分析原因（从内部数据分析，不从竞品分析） 2.去年广告收入比今年高，但流量比去年多，分析原因内连接，外连接，交叉连接，交叉连接会造成什么后果说两个，可以优化查询的方法如果各个...

2019-03-08 20:04:55 528

原创 pandas 求和，求平均，统计

有这样一张表：求和，求平均：import pandas as pdstudent = pd.read_excel("C:/Users/Administrator/Desktop/Students.xlsx",index_col="ID")temp = student[["Test_1","Test_2","Test_3"]]student["total"] = temp

2019-02-24 13:55:52 114907 2

原创 pandas 分割数据表

有这样一张表要将姓和名分开存放：shi使用Series.str.split(pat=None, n=-1, expand=False)：参数pat为按照参照什么符号来分，expand=true返回dataframe，fales返回series，n为切出来的字符串保留个数最终将字符串加到数据表里：参考官网...

2019-02-24 10:47:41 6792

原创 panads多表联合查询

有这样一个数据集：两张表用ID关联着一、通过ID联合查询import pandas as pdstudents = pd.read_excel("C:/Users/Administrator/Desktop/Student_Score.xlsx",sheet_name="Students")scores = pd.read_excel("C:/Users/Administra...

2019-02-16 11:42:15 1976

原创内连接外连接交叉连接

一.内连接：结果仅包含连接条件的两表中的行（如果用vn图就是两图的交集）表A inner join 表B二.外连接：结果包含符合条件的行，同时包含不符合条件的行 1.左外连接：左表全部行+右表匹配的行，如果左表中某行没有匹配的行，则右表该行显示null（表A left join 表B） 2.右外连接：与左外连接相反（表A right join 表B） ...

2019-02-12 22:32:28 218

原创主键、外键和索引区别

主键外键索引定义唯一标识一条记录，不能有重复的，不允许为空表的外键是另一表的主键, 外键可以有重复的, 可以是空值该字段没有重复值，但可以有一个空值作用用来保证数据完整性用来和其他表建立联系用的是提高查询排序的速度个数主键只能有一个一个表可以有多个外键一个表可以有多个惟一索引 ...

2019-02-12 22:26:37 906

原创 panads 数据筛选过滤

有这样一数据集：筛选age 在18到30，score在85到100import pandas as pdstudents = pd.read_excel("C:/Users/Administrator/Desktop/Students.xlsx",index_col="ID")students = students.loc[students.Age.apply(lambda ...

2019-01-31 08:49:20 476

原创 pandas 数据多重排序

有这样数据集：按照Price和Worthy排序import pandas as pdproducts = pd.read_excel("C:/Users/Administrator/Desktop/List.xlsx",index_col="ID")products.sort_values(by=["Worthy","Price"],inplace=True,ascending...

2019-01-31 08:40:40 2720

原创 pandas 函数填充计算列

首先是这样一个数据集：进行价格计算：import pandas as pdbooks = pd.read_excel("C:/Users/Administrator/Desktop/Books.xlsx",index_col="ID")books.Price = books.ListPrice*books.Discountbooks["Price"] = books["Li...

2019-01-27 21:32:01 1131

转载 TF-IDF原理

TF-IDF词频-逆文件频率一个词语在一篇文章中出现次数越多，同时在所在文档中出现次数越少，越能够代表该文章。词频某一个给定的词语在该文件中出现的次数，这个数通常会被归一化（一般是词频除以文章总词数），以防止它偏向长文件（同一个词语在长文件里可能比短文件有更高的词频，而不管词语是否重要） TF w= 在某一类中词条 w 出现的次数 / 该类中所有的词条数目逆...

2019-01-27 19:24:00 245

转载 SQL union 和union all 区别

UNION 操作符用于合并两个或多个 SELECT 语句的结果集。UNION 内部的 SELECT 语句必须拥有相同数量的列。列也必须拥有相似的数据类型。每条 SELECT 语句中的列的顺序必须相同。UNION ALL 允许表与表合并重复值存在参考网站：http://www.w3school.com.cn/sql/sql_union.asp ...

2019-01-22 11:05:10 107

转载 ubuntu16.04安装opencv3.4.1教程

按照这个教程即可：https://blog.csdn.net/cocoaqin/article/details/78163171如上教程完成后，运行程序如出现：If you are on Ubuntu or Debian, install libgtk2.0-dev and pkg-config, then re-run cmake or configure script in functio...

2019-01-22 08:47:09 331

原创 pyltp安装问题

在windows10下直接安装会提示：error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools如果去官网安装，会非常大，我们可以直接安装whee...

2019-01-13 17:52:45 631 1

转载 python 运算符优先级

以下所列优先级顺序按照从低到高优先级的顺序；同行为相同优先级。1 Lambda #运算优先级最低 2 逻辑运算符: or 3 逻辑运算符: and 4 逻辑运算符:not 5 成员测试: in, not in 6 同一性测试: is, is not 7 比较: <,<=,>,>=,!=,== 8 按位或: | 9 按位异或: ^10 按位与: &a...

2019-01-11 17:55:16 869

原创 AttributeError: module 'pip' has no attribute 'main'如何解决

由于pip 10版本中没有main()，如果在不降级的情况下，修改这个文件C:\Program Files\JetBrains\PyCharm Community Edition 2017.3.3\helpers\packaging_tool.py（在你pycharm的安装路径里找） #####头部加上import pip._internal as pip_new####然后分...

2018-12-18 12:37:15 268

转载错误：You can't specify target table 'xxx' for update in FROM clause的解决

https://www.cnblogs.com/pcheng/p/4950383.html

2018-12-18 12:30:25 508

原创 pandas 数据区域读取和数字填充

一.数据区域读取和数据填充有时候excel文件数据杂乱：用pandas区域读取和填充：import pandas as pdfrom datetime import timedelta,datedata = pd.read_excel("C:/Users/Administrator/Desktop/Books.xlsx",encoding="utf-8",skiprow...

2018-12-18 09:02:18 2967

原创 pandas读取excel文件

首先我们读取以下excel文件：有六个字段和19973条数据在pycharm中读取代码如下：import pandas as pdpeople = read_excel("C:/Users/Administrator/Desktop/People.xlsx")#读取print(people.shape)#查看数据维度print(people.columns)#查看数据...

2018-12-13 08:52:50 11307

原创 pandas创建excel文件

pandas包是python中用于数据分析的包创建excel文件代码如下：import pandas as pddf = Dateframe({"id":[1,2,3],"name":["Nick","Bob","Tom"})df.to_excel("路径名+文件名")print(done!)print(df)df为数据集，写入以后就可以打开所创建的文件，会发

2018-12-12 08:40:16 12074 6

原创 distinct 和 group by 选取多个字段问题

一.distinct选取多个字段distinct 只能对一个字段进行去重复操作，对于多个字只能消除这多个字段值全部相同的记录，否则会出现以下结果对于多个字段distinct百度一大推：https://www.cnblogs.com/warioland/archive/2012/05/30/2526128.html二.group by 选取多个字段问题在MYSQL中使用G...

2018-12-08 22:48:06 3090

原创 sql去重

一.数据库清洗去重在数据库里清洗时，会用到DELETE语句进行操作，很多时候需要删除重复记录保存，保存一条。百度之后有些语句会报错，直到发现一个在实战中可以用不会报错的，并且跑起来很快的一条sql语句DELETE consum_recordFROM consum_record, ( SELECT min(id) id, user_id, monetary,...

2018-12-08 11:28:50 10913

原创 hive与hbase的联系和区别

共同点：1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储区别：1.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统，HBase是为了支持弥补Hadoop对实时操作的缺陷的项目。2.想象你操作RMDB数据库，如果是全表扫描，就用Hive+Hadoop,如果是索引访问，就用HBase+Hadoop3....

2018-12-05 09:04:53 227

原创 hive 修改字段类型和增加字段表

Hive 表修改字段类型Alter table 表名 change column 原字段名称现字段名称数据类型新增字段表alter table 表名 add columns(字段名数据类型)

2018-12-04 15:34:13 91105 1

原创 hive 导入sql,text,csv文件

hive执行sql文件方法1： hive -f sql文件 ddl.sql 文件内容： CREATE TABLE TEAM_MEMBER ( ID BIGINT COMMENT "主键",COMPANY_ID ...

2018-11-29 22:24:13 3189

原创 ubuntu 16.04 下载与安装

接触算法的同时接触了linux。现在也正在用，mooc这个课程提供Ubuntu双系统和虚拟机的安装教学视频网址：https://www.icourse163.org/course/PKU-1002536002 ...

2018-11-24 12:48:23 687

原创开启写博客之旅

作为2019年毕业生的我，现在才开始接触写博客，说实话很惭愧，在一个非双的二本学校度过了两年的蜜月期，很让我后悔，但大二减肥30斤很让我收益，明白了自己的方向和目标，也知道了自律带来的好处，使得大三是一个全新的开始。现在孤身一人来到北京实习，正朝着数据分析的方向努力着，不知道未来会怎样，但我喜欢这种无限可能的感觉。记录下我的北漂生活，记录下我的遇到的问题，加油...

2018-11-24 11:53:10 144

空空如也

空空如也