- 博客(181)
- 收藏
- 关注
原创 逻辑回归
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.linear_model import LogisticRegression二分类x_features = np.array([[-1, -2], [-2, -1], [-3, -2], [1, 3], [2, 1], [3, 2]])y_label = np.array([0, 0, 0,
2021-03-24 14:07:56
168
原创 考研书籍推荐
数学(我考的数二)1.教材2.❗张宇高数18讲❗(也可以把线代9讲和概率论9讲一起买了,但线代还是强推李永乐)3.❗李永乐的线代代数辅导讲义❗(我当时是打印前一年的PDF做的,做了2遍还是3遍)...
2021-01-20 09:17:34
401
原创 SQL\HIVE 零碎知识点学习
1.union、union all、intersectunion:并集(去重)union all:所有的记录都拼接起来,不去重intersect:交集2. hive 3rd function2.1 array functionfunctiondescriptionarray_contains(array<E>, E) -> booleanwhether array contains value or not.array_equals(array&l
2021-01-11 18:06:16
1162
原创 数据可视化:2020年全网每周活跃粉丝人数top10艺人
2020年全网每周活跃粉丝人数top10艺人 (感谢艾漫让我爬了一年数据还没封我IP…)
2020-12-29 08:44:23
943
原创 scrapy:中间件
scrapy的中间件可分为爬虫中间件和下载中间件,本文主要介绍下载中间件。下载中间件位于Downloader和engine之间,主要用于拦截请求和拦截响应。1.拦截请求作用:进行UA伪装、代理IP步骤:在middlewares.py 文件中,重写DownloaderMiddleware类中的process_request函数❤️ :对发起的每个请求,重UA池中选择任意一个进行UA伪装class MiddleDownloaderMiddleware: #UA池 user_agent_
2020-12-27 21:44:15
9643
原创 scrapy:ImagesPipeline
作用:只需要将img的src属性值从原网页中解析出,封装到item、并提交给管道,管道就会自动对图片的src发送请求、获取图片的二进制数据,并进行持久化存储步骤:1.爬虫文件中解析出图片的src,封装到item中,把item提交给管道2.pipelines.py中重新定义一个管道类(原来的要删掉),该类继承自ImagesPipeline在新定义的管道类中要重写三个函数:a. get_media_requests(self, item, info) 用于对src发送请求b. file_pa..
2020-12-27 20:45:29
296
3
原创 scrapy:请求传参
使用场景:需要的数据不能在同一个parse函数中获得(比如在起始页面通过parse1函数拿到了压缩包名称和压缩包详细信息的detail_url,要对detail_url发起请求并通过parse2函数解析才能获得压缩包的下载链接download_url)方法:通过scrapy.Request对detail_url发送请求时,添加一个meta参数:meta={‘item’:item};将meta传递给Request对应的回调函数(即parse2函数)爬虫文件中的代码:import scra..
2020-12-27 18:36:45
1363
原创 scrapy:基于pipeline的多平台持久化存储
需求:将爬取到的数据一份存储到本地一份存储到数据库(对应project:qiubaipro)思路:开启两个管道,pipelines.py中,一个管道负责将数据存储到一个平台(载体),多个管道就可存储到多个平台。PS:1.有多个管道的情况下,爬虫文件将封装好的item提交给管道时,会提交给优先级最高的管道;该管道处理完成后,return item,下一个管道才会收到item。因此每个管道必须要return item!!!!2. 结束时,先执行优先级较低管道的close_spider爬虫文件中的.
2020-12-25 16:56:57
212
原创 scrapy:常用命令and五大组件
1.常用命令scrapy startproject 项目名称:在当前目录下创建一个指定名称的文件夹,里面放置了scrapy框架除爬虫文件以外的所有文件:创建好的文件夹内容如图:scrapy genspider 爬虫文件名 网址:创建爬虫文件,这个网址可以先随便填,之后在爬虫文件中修改。PS:一定要先进入刚刚创建的那个项目文件夹中!!!!scrapy crawl 爬虫文件名:执行爬虫,开始爬取数据2.scrapy五大组件先解释一下每个步骤是干什么的:①:spider将start_url
2020-12-25 15:53:21
158
原创 matplotlib
文章目录1.一些常规操作2.设置坐标轴标签的可见程度3.散点图4.条形图(柱状图)5.等高线图6.3D图7.子图7.1 子图在figure中的定位7.1.1 方式一:subplot2grid7.1.2 方式二:gridspec7.1.3 方式三:subplots7.2 每个子图设置自己的样式7.3 子图之间间距的调整8.图中图import numpy as npimport matplotlib.pyplot as plt1.一些常规操作x = np.linspace(-3,3,50)y1 =
2020-12-13 17:12:42
237
原创 leetcode数据库刷题记录
1.找出某特征连续出现n次的所有记录题目要求:id和people都是int类型,visit_date是日期类型,id是主键方法一:使用rank()思路分析:将people>=100的所有id进行排序(由于本例中id是主键,所以肯定不会有重复,因此直接使用rank就可以);然后用id值减去rank值,结果记为c,如果id是连续的,那么连续id对应c应该是相同的;c出现了几次,那么id就连续了c条记录。with t1 as( select id,visit_date,people,
2020-12-12 15:44:11
707
原创 MySQL:索引学习记录
#目前id上有一个primary key,deptname上没有indexEXPLAIN SELECT id,deptnameFROM deptORDER BY id;#目前id上有一个primary key,deptname上没有indexEXPLAIN SELECT id,deptnameFROM deptORDER BY deptname;现在给deptname加上一个索引,然后再试试:CREATE INDEX idx_deptname ON dept(deptname);
2020-12-08 16:24:59
73
原创 mysql:建索引
一.单表索引即查询只涉及一张表1.单值索引尽量选择过滤性较好的列来建立索引。比如要从学生表里列出来自成都市(完整数据中包含了很多城市)的女生,现在city和gender这两列中只能选其中一个列来建立索引,那么肯定选择city来建立索引。通常我们可以从show index from table 结果中的cardinality这列来看谁的过滤性较好,一般来说cardinality值越大的索引过滤性越好。如上图所示,我们给员工的编号(empno)和员工年龄(age)分别都加上了索引,从cardina
2020-12-08 16:24:11
360
原创 hive:日期相关函数
current_date() 返回当前日期date_add,date_sub日期的加减 e.g.date_add(current_date(),90)今天往后90天的日期,date_sub(current_date(),90)今天往前90天的日期。datediff()计算两个日期之间相差的天数 e.g. datediff(‘1997-08-05’,‘1991-10-05’)例题:请用business数据,查看哪些顾客连续两天有购买行为原始数据如下:变量分别为name、orderdate、co.
2020-12-07 15:27:31
403
原创 hive:常用函数(case when,collect_list/set,lateral view explode)
case when;collect_list/set(行转列);explode(列转行)
2020-12-06 20:10:39
1277
原创 hive:导出数据
文章目录一.insert 导出1.将查询结果导出到本地2.将查询结果格式化导出到本地3.将查询结果导出到hdfs中二.hadoop命令导出到本地一.insert 导出1.将查询结果导出到本地insert overwrite local directory '/opt/module/datas/export/dept1'select * from dept_part2;2.将查询结果格式化导出到本地insert overwrite local directory '/opt/module/da
2020-12-06 15:06:55
225
原创 hive:分区表和分桶表以及二者区别
文章目录一.分区表(partitioned by)1.创建分区表2.插入数据3.查询分区表中的数据4.增加/删除分区5.二级分区表6.空区填补数据二.分桶表(clustered by)三.分区表和分桶表的区别一.分区表(partitioned by)1.创建分区表--创建分区表create table dept_part(deptno int,dname string,loc string)partitioned by (month string)row format delimited fi
2020-12-06 11:53:02
3003
原创 hive:外部表与内部表
首先建立一个外部表,放在hdfs的根目录下create external table stu_external(id int, name string) row format delimited fields terminated by '\t' location '/student';向表中插入数据:load data local inpath '/opt/module/datas/student.txt' into table stu_external;从下图可以看出,hdfs的
2020-12-05 20:32:36
358
原创 hive:DDL
1.库1.1创建数据库语法:CREATE DATABASE [IF NOT EXISTS] database_name[COMMENT database_comment][LOCATION hdfs_path][WITH DBPROPERTIES (property_name=property_value, ...)];PS:数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db(即如果location那儿不指定具体路径,那么创建的database就放在ware
2020-11-28 22:35:23
176
原创 小陈的debug之路
1.centos7安装vmware tool:1).gcc错误Searching for GCC…The path “” is not valid path to the gcc binary.解决方法:终端输入 yum install gcc2)kernel headers错误Searching for a valid kernel header path…The path “” is not a valid path to the xxx kernel headers.解决方法:yu
2020-11-08 11:12:45
283
原创 pytorch实现word_embedding(negative_sampling的skip-gram模型)
什么是word_embedding呢?简单来说,就是用一个向量来表示一个word。 比如我们现在有10个word,我们想用数字来表示这些word,使得我们一看到数字就能知道它代表的是什么单词,那么最简单的操作就是one-hot。但是当有1k个、1w个单词时,使用one-hot就会使得维数很大,并且one-hot还不能显示出单词之间的相关性。
2020-11-06 21:23:03
1577
5
原创 基于transfer-learning的风格迁移
风格迁移就是让一张照片的内容(content)不变,但是风格(style)却和另一种照片接近。训练过程中的loss由两部分组成,一个是content_loss,表示target_pic与content_pic之间内容差别的大小;一个是style_loss,表示target_pic与style_pic之间风格差别的大小。在本例中,一开始,我们直接copy content_pic作为target_pic,在训练过程中,使targ
2020-11-06 20:50:59
254
原创 pytorch:with torch.no_grad:
觉得这位博主解释得不错:link但是目前存在的问题是:x = torch.randn(n,d_in)y = torch.randn(n,d_out)w1 = torch.randn(d_in,H,requires_grad=True)w2 = torch.randn(H,d_out,requires_grad=True)lr = 1e-6epoch = 500for it in range(2): #forward pass y_pred = x.mm(w1).cl
2020-10-29 08:34:26
829
原创 tableau数据可视化实战:大众点评成都美食
使用Python爬取大众点评5W家成都市区的美食,然后使用tableau从地区、菜品、价格角度进行可视化分析。地区:大众点评成都美食(一)菜品:大众点评成都美食(二)价格:大众点评成都美食(三)...
2020-09-02 10:48:38
946
原创 tableau数据可视化实战:大众点评成都美食(三)
本篇将从价格角度来分析爬取到的5w家店铺。由于价格是连续变量,所以我们先对价格进行分组操作,此例中我们将价格进行如下分组:价格小于等于20元、20-50元、50-100元、100-200元、200-300元以及300元以上。 可以看出,在所有价格段中,50~100元的餐馆数量最多,达到了6730家;20-50元价格段
2020-09-02 10:37:45
949
原创 tableau数据可视化实战:大众点评成都美食(二)
上一篇我们从地域的角度分析了大众点评里5w家成都美食店铺,本篇我们将从菜品的角度进行分析。 由上图可以看出,数量最多的是饮品店,其次是茶馆,这也是成都的一大特色,之前就有新闻说成都人一年喝掉的茶水量相当于7个西湖。突破3k大关的还有川菜、面包甜点、火锅和小吃快餐。烧烤烤串、粉面馆、串串香有2k+家,此外咖啡厅、西餐、
2020-09-01 21:19:28
1073
原创 使用tableau绘制动态折线图
首先我们看看最终的效果是怎么样的: 原始数据长这样: 如果简单一点,只画一条动态折线图: step1: &nbs
2020-08-19 10:02:56
3333
3
原创 tableau数据分析实战:明星艺人数据分析
使用Python爬取艾漫官网7月29日~8月13日的明星艺人数据,再使用tableau、Python对数据进行分析。
2020-08-16 15:05:55
4853
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅