- 博客(181)
- 收藏
- 关注
原创 数据分析/可视化合集
1.金融投资组合构建及可视化2.tableau数据分析实战:明星艺人数据分析3.数据可视化:2020年全网每周活跃粉丝数top10艺人4.tableau数据可视化实战:大众点评成都美食
2020-09-09 08:23:29 273
原创 mysql知识点汇总+课后作业题+作业题答案+原始数据集
mysql知识点汇总+全套课后习题+习题答案+完整原始数据集DQL,DDL,DML,TCL以及其他知识点
2020-03-27 12:09:45 313
原创 使用Python下载电视剧(二):下载ts片段
文章目录1.任务介绍2.代码实现1.任务介绍拿到每一集的m3u8文件后,可以根据文件内的若干链接下载到对应的ts片段,然后根据key对应的链接获得视频解码的密钥对所有下载的ts片段进行解码。最后将所有片段拼接起来得到完整的一集视频。2.代码实现import requests,re,aiohttp,aiofiles,asyncio,osfrom Crypto.Cipher import AESdef decode_key(url): key_url = url.replace('inde
2022-04-11 20:28:04 1781
原创 download music.163的评论
文章目录1.任务介绍2.params和encSecKey的产生过程2.1 第一个参数2.2 后面三个参数3.代码实现(一个页面)4.download所有页面的评论1.任务介绍获取每首歌下面的所有评论,通过抓包工具,可以看到该请求返回的数据中,包含了一个页面(这首歌一共有261页评论)的20条评论因此,拿到每个页面的url就能得到所有评论数据。对headers进行查看,发现这是一个post请求,form data为params和encSecKey(下图为第一页的params和encSecKey):
2022-03-31 17:27:21 488
原创 各种小tips
❤️ python安装某个包时,报“read timed out”的错误解决:在terminal中输入:python -m pip --default-timeout=100 install 你需要安装的库的名字
2022-03-29 14:02:47 691
原创 python re模块常用功能
import restr = 'wyb出生于1997年,xz出生于1991年'pattern = r'\d+'# 1.findall:查找string中所有匹配的内容,返回一个listresult = re.findall(pattern,str)print(result) # ['1997', '1991']# 2.finditer:返回一个迭代器result = re.finditer(pattern,str)print(result) # <callable_iterato
2022-03-26 21:04:42 818
原创 正则常用符号
1.元字符.:匹配除换行符以外的任一字符\w:匹配字母or数字or下划线\s:任一空白符\d:任一数字\W:匹配非字母or数字or下划线\S:匹配非空白符\D:匹配非数字\n:换行符\t:制表符^:字符串开始$:字符串结尾a|b:匹配字符a或字符b():匹配括号内的表达式,也表示一个组[]:匹配字符组中的字符[^...]:匹配除字符组中的所有字符2.量词控制元字符出现的次数*:重复0次or更多次+:重复1次or更多次?:重复0次or1次{n}:重复n次,n为具体的整
2022-03-26 17:10:00 1733 1
原创 cross-product transformation
Let’s do this in the opposite order of how you asked. i.e. first:How can I think of the cross-product transformation in general?For me a cross-product comes from linear algebra, and it is a different transformation. Therefore let’s start by not confusing
2021-12-05 11:21:44 266
原创 因子分析与主成分分析、回归分析的不同
因子分析与主成分分析:主成分分析:原始变量的线性组合表示新的综合变量,即主成分。因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。因子分析与回归分析:因子分析中的因子是一个比较抽象的概念,而回归因子有非常明确的实际意义。...
2021-06-21 09:29:39 2048
原创 language model with pointer network
1.什么是pointer network如上图所示,P1,P2,P3,P4P_1,P_2,P_3,P_4P1,P2,P3,P4的坐标分别为(x1,y1x_1,y_1x1,y1),(x2,y2x_2,y_2x2,y2),(x3,y3x_3,y_3x3,y3),(x4,y4x_4,y_4x4,y4),我们想从这些点中找出几个点,这几个点的坐标连起来后,能涵盖所有点。以上面这幅图为例,将各个点的坐标输入encoder后,decoder依次输出1、4、2、1。P1,P4,P2P_1,P
2021-06-12 16:30:55 261
原创 隐马尔可夫模型(HMM)and维比特算法
之前手写的笔记,害怕哪天找不到了,就先拍照放上来,以后有时间再整理成电子版。(write to myself:看不懂步骤的可以先去看每个后面的例子~)
2021-06-10 16:58:15 202
原创 pytorch的scatter和scatter_add操作
tensor的scatter和scatter_add操作,这篇讲得比较详细,这里我就简单总结一下,以a.scatter(dim=dim,index=index,src=src)为例len(a.size())=len(index.size())=len(src.size())=dim_num 即三者维度数必须相等a与index的关系:a.size(i)≥index.size(i) i≠dima.size(dim)与ind
2021-06-10 10:31:30 1284 1
原创 pytorch实现seq2seq(二):Luong_attention机制
本篇实现的是Luong的attention,即: 其中hˉs\bar{h}_shˉs表示encoder每个hidden_state的输出,hth_tht表示decoder每个hidden_state的输出。文章目录1.载入原始数据2.数据预处理2.1 中英文分词2.2 建立词典2.3 使用词典来对原始句子进行编码2.4 划分训练集和
2021-06-06 17:45:39 1326 2
原创 pytorch实现seq2seq(一)
文章目录1.载入原始数据2.数据预处理2.1 中英文分词2.2 建立词典2.3 使用词典来对原始句子进行编码2.4 划分训练集和验证集2.5 自定义dataloader3.搭建模型3.1 encoder3.2 decoder3.3 seq2seq3.4 自定义损失函数4.训练模型4.1 初始化模型4.2 定义训练过程和验证过程的函数4.3 开始训练5.检验效果import osimport sysimport mathfrom collections import Counterimport nu
2021-06-05 23:56:43 1591 1
原创 pytorch实现情感分类(wordavg&lstm&cnn)
文章目录1.数据准备2.wordavg model2.1定义模型2.2设置参数2.3 初始化模型2.4 glove初始化模型embedding层2.5 定义训练过程、评估函数2.6 开始训练2.7 检验分类效果3.LSTM模型4.CNN 模型import torchimport torchtextfrom torchtext import datafrom torchtext import datasetsfrom torchtext.vocab import GloVeimport spacy
2021-06-03 11:15:00 902
原创 使用LSTM训练语言模型(以《魔道祖师》为corpus)
import torchtextfrom torchtext.vocab import Vectorsimport torch from torch import nnimport numpy as npimport randomimport jiebarandom.seed(53113)np.random.seed(53113)torch.manual_seed(53113)use_cuda = torch.cuda.is_available()if use_cuda: t
2021-06-01 21:48:59 1023
原创 mooplab2021数据建模大赛(桂林银行杯)
数据集不能下载到本地,所以本文只是做一个数据处理和建模过程的记录。比赛结果:线下auc:0.859,线上auc:0.8077。1.数据初步探索结果训练集中,8375个卡号,但只有8361个客户。acct:(此表含卡号、客户号和最终的label)只要x_cat3取值为482 x_date1、2就缺失;x_cat3只有21值不为482,此时x_date1和x_date2完全一样;基于上述情况,考虑只保留x_cat3,取值为482的设为0,其他为1,并且删除x_date1、2x_date1 x_d
2021-05-28 14:18:42 2074 14
原创 attention/self-attention
attention详细版请戳这里self-attention详细版请戳这里(transformer中的self-attention)
2021-05-27 13:54:26 199
原创 RidgeCV及LassoCV
1.RidgeCValphas = np.arange(1,1001,100) Ridge_ = RidgeCV(alphas=alphas#,scoring="neg_mean_squared_error" ,store_cv_values=True #,cv=5 ).fit(x, y)print(x.shape) #有20640个sampleprint(Ridge_.cv_values_.shape) #因为cv默认为留一验证,所以为20640,每一行代表一个验证集验证的结果;因
2021-05-07 10:53:18 2083
原创 岭回归如何解决多重共线性
Lasso:lasso的解为何比较稀疏?假设ridge和lasso都有解,即wridge 和 wlasso 都存在。在wridge 中,(XT X+αI)-1 不为0,若某个wi为0,只能寄希望于XTy;而在wlasso 中,(XT X)-1 不为0,可以调整α使(XTy-αI2\frac{αI}{2}2αI)某一维为0,那么wi 就为0,所以lasso的解比较稀疏。...
2021-05-04 15:22:22 964
原创 SVM
1.SVM的基本问题在样本空间中,划分超平面(又称为决策边界)可以通过如下线性方程表示:wTx+b=0w^ Tx+b =0wTx+b=0决策边界位于两条虚线超平面的中间,对于位于虚线超平面上的点(称为支持向量),有w⋅x+b=k,w⋅x+b=−kw·x+b=k,w·x+b=-kw⋅x+b=k,w⋅x+b=−k两个表达式同时除以k,则可以得到:w⋅x+b=1w⋅x+b=−1w·x+b=1 w·x+b=-1w⋅x+b=1w⋅x+b=−1以上就是两条虚线超平面的表达式,1和-1
2021-04-30 09:22:49 158
原创 分箱二
import sklearnimport numpy as npimport pandas as pdimport scipyimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False #用来正常显示负号model_data = pd.read_csv('model_data.csv',index_co
2021-04-20 19:03:37 245
原创 分箱介绍及举例详解
文章目录1.根据IV值确定最佳分箱个数2.根据最佳分箱个数进行分箱,并用各箱woe值替换元数据2.1 进行分箱2.2 计算各箱woe值2.3 使用woe值替换原始数据1.根据IV值确定最佳分箱个数import sklearnimport numpy as npimport pandas as pdimport scipyimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签pl
2021-04-20 16:06:41 6886 4
原创 sns的color_palette以及plt的cmap
文章目录1.cmap2.palette1.cmapcmap:2.palettecolor_palette:第二个就是上面几张图中颜色的名字,如下:‘Accent’, ‘Accent_r’, ‘Blues’, ‘Blues_r’, ‘BrBG’, ‘BrBG_r’, ‘BuGn’, ‘BuGn_r’, ‘BuPu’, ‘BuPu_r’, ‘CMRmap’, ‘CMRmap_r’, ‘Dark2’, ‘Dark2_r’, ‘GnBu’, ‘GnBu_r’, ‘Greens’, ‘Gre
2021-04-15 11:38:56 6561
原创 PCA+SVD降维:完整代码+实例分析
文章目录1.引例:鸢尾花数据集降维及可视化2.PCA重要参数、属性、方法2.1 重要参数补充知识点:SVD2.2 重要属性2.3 重要方法3.使用PCA降噪4.使用PCA后对分类效果的影响4.1 pca+rf4.2 pca+knnimport warningswarnings.filterwarnings("ignore")import matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt
2021-04-15 10:59:14 2952
原创 xgboost
文章目录1.EDA及数据预处理2.初步建模3.查看各变量重要性4.调参重要知识点1. XGBoost的重要参数2. XGBoost原理粗略讲解1.EDA及数据预处理## 基础函数库import numpy as np import pandas as pd## 绘图函数库import matplotlib.pyplot as pltimport seaborn as sns#导入需要用到的数据集data = pd.read_csv('train.csv')data.head()
2021-03-25 17:14:44 1720
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人