自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(181)
  • 收藏
  • 关注

原创 逻辑回归

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.linear_model import LogisticRegression二分类x_features = np.array([[-1, -2], [-2, -1], [-3, -2], [1, 3], [2, 1], [3, 2]])y_label = np.array([0, 0, 0,

2021-03-24 14:07:56 168

原创 python基础部分零碎知识点

PS:当两个不可变类型(比如int、str等)变量的值是相同时,内存地址也相同。

2021-03-23 10:54:18 130

原创 位运算

& | ~ ^位运算符,详细例子说明

2021-03-22 21:53:33 363

原创 考研书籍推荐

数学(我考的数二)1.教材2.❗张宇高数18讲❗(也可以把线代9讲和概率论9讲一起买了,但线代还是强推李永乐)3.❗李永乐的线代代数辅导讲义❗(我当时是打印前一年的PDF做的,做了2遍还是3遍)...

2021-01-20 09:17:34 401

原创 SQL\HIVE 零碎知识点学习

1.union、union all、intersectunion:并集(去重)union all:所有的记录都拼接起来,不去重intersect:交集2. hive 3rd function2.1 array functionfunctiondescriptionarray_contains(array<E>, E) -> booleanwhether array contains value or not.array_equals(array&l

2021-01-11 18:06:16 1162

原创 数据可视化:2020年全网每周活跃粉丝人数top10艺人

2020年全网每周活跃粉丝人数top10艺人 (感谢艾漫让我爬了一年数据还没封我IP…)

2020-12-29 08:44:23 943

原创 scrapy:中间件

scrapy的中间件可分为爬虫中间件和下载中间件,本文主要介绍下载中间件。下载中间件位于Downloader和engine之间,主要用于拦截请求和拦截响应。1.拦截请求作用:进行UA伪装、代理IP步骤:在middlewares.py 文件中,重写DownloaderMiddleware类中的process_request函数❤️ :对发起的每个请求,重UA池中选择任意一个进行UA伪装class MiddleDownloaderMiddleware: #UA池 user_agent_

2020-12-27 21:44:15 9643

原创 scrapy:ImagesPipeline

作用:只需要将img的src属性值从原网页中解析出,封装到item、并提交给管道,管道就会自动对图片的src发送请求、获取图片的二进制数据,并进行持久化存储步骤:1.爬虫文件中解析出图片的src,封装到item中,把item提交给管道2.pipelines.py中重新定义一个管道类(原来的要删掉),该类继承自ImagesPipeline在新定义的管道类中要重写三个函数:a. get_media_requests(self, item, info) 用于对src发送请求b. file_pa..

2020-12-27 20:45:29 296 3

原创 scrapy:请求传参

使用场景:需要的数据不能在同一个parse函数中获得(比如在起始页面通过parse1函数拿到了压缩包名称和压缩包详细信息的detail_url,要对detail_url发起请求并通过parse2函数解析才能获得压缩包的下载链接download_url)方法:通过scrapy.Request对detail_url发送请求时,添加一个meta参数:meta={‘item’:item};将meta传递给Request对应的回调函数(即parse2函数)爬虫文件中的代码:import scra..

2020-12-27 18:36:45 1363

原创 scrapy:基于pipeline的多平台持久化存储

需求:将爬取到的数据一份存储到本地一份存储到数据库(对应project:qiubaipro)思路:开启两个管道,pipelines.py中,一个管道负责将数据存储到一个平台(载体),多个管道就可存储到多个平台。PS:1.有多个管道的情况下,爬虫文件将封装好的item提交给管道时,会提交给优先级最高的管道;该管道处理完成后,return item,下一个管道才会收到item。因此每个管道必须要return item!!!!2. 结束时,先执行优先级较低管道的close_spider爬虫文件中的.

2020-12-25 16:56:57 212

原创 scrapy:常用命令and五大组件

1.常用命令scrapy startproject 项目名称:在当前目录下创建一个指定名称的文件夹,里面放置了scrapy框架除爬虫文件以外的所有文件:创建好的文件夹内容如图:scrapy genspider 爬虫文件名 网址:创建爬虫文件,这个网址可以先随便填,之后在爬虫文件中修改。PS:一定要先进入刚刚创建的那个项目文件夹中!!!!scrapy crawl 爬虫文件名:执行爬虫,开始爬取数据2.scrapy五大组件先解释一下每个步骤是干什么的:①:spider将start_url

2020-12-25 15:53:21 158

原创 爬虫常用数据提取方式:正则、xpath、beautifulsoup

爬虫常用数据提取方式:正则、xpath、beautifulsoup

2020-12-19 17:16:46 1120 3

原创 matplotlib

文章目录1.一些常规操作2.设置坐标轴标签的可见程度3.散点图4.条形图(柱状图)5.等高线图6.3D图7.子图7.1 子图在figure中的定位7.1.1 方式一:subplot2grid7.1.2 方式二:gridspec7.1.3 方式三:subplots7.2 每个子图设置自己的样式7.3 子图之间间距的调整8.图中图import numpy as npimport matplotlib.pyplot as plt1.一些常规操作x = np.linspace(-3,3,50)y1 =

2020-12-13 17:12:42 237

原创 leetcode数据库刷题记录

1.找出某特征连续出现n次的所有记录题目要求:id和people都是int类型,visit_date是日期类型,id是主键方法一:使用rank()思路分析:将people>=100的所有id进行排序(由于本例中id是主键,所以肯定不会有重复,因此直接使用rank就可以);然后用id值减去rank值,结果记为c,如果id是连续的,那么连续id对应c应该是相同的;c出现了几次,那么id就连续了c条记录。with t1 as( select id,visit_date,people,

2020-12-12 15:44:11 707

原创 mysql: is null,isnull,ifnull,nullif

sql中is null .isnull.ifnull.nullif的用法

2020-12-09 10:36:36 558

原创 mysql:concat,concat_ws,group_concat

sql中concat,concat_ws,group_concat的用法

2020-12-09 09:51:48 209

原创 MySQL:索引学习记录

#目前id上有一个primary key,deptname上没有indexEXPLAIN SELECT id,deptnameFROM deptORDER BY id;#目前id上有一个primary key,deptname上没有indexEXPLAIN SELECT id,deptnameFROM deptORDER BY deptname;现在给deptname加上一个索引,然后再试试:CREATE INDEX idx_deptname ON dept(deptname);

2020-12-08 16:24:59 73

原创 mysql:建索引

一.单表索引即查询只涉及一张表1.单值索引尽量选择过滤性较好的列来建立索引。比如要从学生表里列出来自成都市(完整数据中包含了很多城市)的女生,现在city和gender这两列中只能选其中一个列来建立索引,那么肯定选择city来建立索引。通常我们可以从show index from table 结果中的cardinality这列来看谁的过滤性较好,一般来说cardinality值越大的索引过滤性越好。如上图所示,我们给员工的编号(empno)和员工年龄(age)分别都加上了索引,从cardina

2020-12-08 16:24:11 360

原创 hive:电影数据实战

70w+条数据,8个具体实例

2020-12-08 14:18:14 2180 1

原创 hive:日期相关函数

current_date() 返回当前日期date_add,date_sub日期的加减 e.g.date_add(current_date(),90)今天往后90天的日期,date_sub(current_date(),90)今天往前90天的日期。datediff()计算两个日期之间相差的天数 e.g. datediff(‘1997-08-05’,‘1991-10-05’)例题:请用business数据,查看哪些顾客连续两天有购买行为原始数据如下:变量分别为name、orderdate、co.

2020-12-07 15:27:31 403

原创 hive:窗口函数(开窗函数)over

hive窗口函数(开窗函数)over的使用介绍+实例讲解

2020-12-07 11:15:41 1836

原创 hive:常用函数(case when,collect_list/set,lateral view explode)

case when;collect_list/set(行转列);explode(列转行)

2020-12-06 20:10:39 1277

原创 hive:排序查询

hive排序查询中所涉及到的order by 、sort by 、distribute by和cluster by

2020-12-06 16:13:28 258

原创 hive:like和rlike

hive中like和rlike的用法

2020-12-06 15:55:24 622

原创 hive:导出数据

文章目录一.insert 导出1.将查询结果导出到本地2.将查询结果格式化导出到本地3.将查询结果导出到hdfs中二.hadoop命令导出到本地一.insert 导出1.将查询结果导出到本地insert overwrite local directory '/opt/module/datas/export/dept1'select * from dept_part2;2.将查询结果格式化导出到本地insert overwrite local directory '/opt/module/da

2020-12-06 15:06:55 225

原创 hive:分区表和分桶表以及二者区别

文章目录一.分区表(partitioned by)1.创建分区表2.插入数据3.查询分区表中的数据4.增加/删除分区5.二级分区表6.空区填补数据二.分桶表(clustered by)三.分区表和分桶表的区别一.分区表(partitioned by)1.创建分区表--创建分区表create table dept_part(deptno int,dname string,loc string)partitioned by (month string)row format delimited fi

2020-12-06 11:53:02 3003

原创 hive:外部表与内部表

首先建立一个外部表,放在hdfs的根目录下create external table stu_external(id int, name string) row format delimited fields terminated by '\t' location '/student';向表中插入数据:load data local inpath '/opt/module/datas/student.txt' into table stu_external;从下图可以看出,hdfs的

2020-12-05 20:32:36 358

原创 hive:DDL

1.库1.1创建数据库语法:CREATE DATABASE [IF NOT EXISTS] database_name[COMMENT database_comment][LOCATION hdfs_path][WITH DBPROPERTIES (property_name=property_value, ...)];PS:数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db(即如果location那儿不指定具体路径,那么创建的database就放在ware

2020-11-28 22:35:23 176

原创 小陈的debug之路

1.centos7安装vmware tool:1).gcc错误Searching for GCC…The path “” is not valid path to the gcc binary.解决方法:终端输入 yum install gcc2)kernel headers错误Searching for a valid kernel header path…The path “” is not a valid path to the xxx kernel headers.解决方法:yu

2020-11-08 11:12:45 283

原创 pytorch实现word_embedding(negative_sampling的skip-gram模型)

      什么是word_embedding呢?简单来说,就是用一个向量来表示一个word。      比如我们现在有10个word,我们想用数字来表示这些word,使得我们一看到数字就能知道它代表的是什么单词,那么最简单的操作就是one-hot。但是当有1k个、1w个单词时,使用one-hot就会使得维数很大,并且one-hot还不能显示出单词之间的相关性。  

2020-11-06 21:23:03 1577 5

原创 基于transfer-learning的风格迁移

       风格迁移就是让一张照片的内容(content)不变,但是风格(style)却和另一种照片接近。训练过程中的loss由两部分组成,一个是content_loss,表示target_pic与content_pic之间内容差别的大小;一个是style_loss,表示target_pic与style_pic之间风格差别的大小。在本例中,一开始,我们直接copy content_pic作为target_pic,在训练过程中,使targ

2020-11-06 20:50:59 254

原创 pytorch:with torch.no_grad:

觉得这位博主解释得不错:link但是目前存在的问题是:x = torch.randn(n,d_in)y = torch.randn(n,d_out)w1 = torch.randn(d_in,H,requires_grad=True)w2 = torch.randn(H,d_out,requires_grad=True)lr = 1e-6epoch = 500for it in range(2): #forward pass y_pred = x.mm(w1).cl

2020-10-29 08:34:26 829

原创 Python日期相关知识点

字符串与时间之间的转换:link获取当前日期前一天的日期:link

2020-10-28 16:12:19 195

原创 LSTM实战:空气质量预测

LSTM实战:空气质量预测。pytorch代码,超详细。

2020-10-17 08:33:12 13633 42

原创 tableau数据可视化实战:大众点评成都美食

使用Python爬取大众点评5W家成都市区的美食,然后使用tableau从地区、菜品、价格角度进行可视化分析。地区:大众点评成都美食(一)菜品:大众点评成都美食(二)价格:大众点评成都美食(三)...

2020-09-02 10:48:38 946

原创 tableau数据可视化实战:大众点评成都美食(三)

        本篇将从价格角度来分析爬取到的5w家店铺。由于价格是连续变量,所以我们先对价格进行分组操作,此例中我们将价格进行如下分组:价格小于等于20元、20-50元、50-100元、100-200元、200-300元以及300元以上。        可以看出,在所有价格段中,50~100元的餐馆数量最多,达到了6730家;20-50元价格段

2020-09-02 10:37:45 949

原创 tableau数据可视化实战:大众点评成都美食(二)

        上一篇我们从地域的角度分析了大众点评里5w家成都美食店铺,本篇我们将从菜品的角度进行分析。        由上图可以看出,数量最多的是饮品店,其次是茶馆,这也是成都的一大特色,之前就有新闻说成都人一年喝掉的茶水量相当于7个西湖。突破3k大关的还有川菜、面包甜点、火锅和小吃快餐。烧烤烤串、粉面馆、串串香有2k+家,此外咖啡厅、西餐、

2020-09-01 21:19:28 1073

原创 tableau数据可视化实战:大众点评成都美食(一)

使用Python爬取了大众点评成都市区的5w家店铺,并使用tableau进行可视化

2020-08-27 19:48:59 1605 2

原创 使用tableau绘制动态折线图

       首先我们看看最终的效果是怎么样的:       原始数据长这样:       如果简单一点,只画一条动态折线图:       step1:     &nbs

2020-08-19 10:02:56 3333 3

原创 tableau数据分析实战:明星艺人数据分析

使用Python爬取艾漫官网7月29日~8月13日的明星艺人数据,再使用tableau、Python对数据进行分析。

2020-08-16 15:05:55 4853 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除