Loiser1-CSDN博客

原创 12.3 组会(基础知识，稀疏表达+采样)

12.3稀疏表达稀疏矩阵，（稠密$\rightarrow $稀疏）L1L_1L1稀疏性，L2L_2L2没有稀疏性证明详见Lasso论文（实际上产生原因来自于James-Stein统计量，意图降低参数的MSE）用α\alphaα表达xix_ixi, 字典:B(解混中的光谱库)min∣∣xi−Bαi∣∣22+λ∣∣αi∣∣1min||x_i-B\alpha_i||_2^2+\lambda||\alpha_i||_1min∣∣xi−Bαi∣∣22+λ∣∣αi∣∣1优化过程:固定B

2021-12-05 21:02:41 445

原创 style-GAN Generator 代码解析

文章目录style-GAN Generator 代码解析StyleGAN部分DenseBlock部分（Mapping主要组件）Truncation部分（trick1）ConvBlock部分（Synthesis主要组件）class StyleModLayerclass BlurLayerclass NoiseApplyingLayerclass UpsamplingLayerstyle-GAN Generator 代码解析PART 2 of Sefa study:对于style-GAN Generato

2021-08-19 20:39:56 1293 1

原创线性回归、logit回归、probit回归

回归主要借鉴高级计量经济学及Stata应用第2版_陈强_北京：高等教育出版社_2014.04_669_13526050文中所提"书"即是这本中的内容线性回归Yi=b0+b1Xi+ϵi,ϵi∼(0,σ2)Y_i=b_0+b_1X_i+\epsilon_i,\qquad \epsilon_i\sim (0,\sigma^2)Yi=b0+b1Xi+ϵi,ϵi∼(0,σ2)Y^=b0+b1X\hat{Y}=b_0+b_1XY^=b0+b1X古典线性回归模型的假定:总体模型:Y

2021-04-09 23:35:04 8647

原创主成分分析与因子分析-原理及python实现

下面两种算法一般都需标准化消除量纲影响主成分分析(PCA)目的数据降维，将n维数据降为n’维数据。原数据X:n×m,sample point:(x1,...,xn)T,base:{w1,...,wn}X:n\times m,sample\,point:(x_1,...,x_n)^T,base:\lbrace w_1,...,w_n\rbraceX:n×m,samplepoint:(x1,...,xn)T,base:{w1,...,wn}转换到n‘维空间中，x(i)→z(i)=(zi(i),.

2021-04-06 22:09:56 1924

原创 2021美赛C思路总结

2021年美赛C题思路preface记录一下美赛C题的完成情况orz,当时找了计算机大佬一起组队，大佬python写程序贼六，问题解决里面图像识别的程序让我叹为观止(最主要是能在这么短的时间内完成数据组织，模型配置和训练都太不容易了，要是我来这几天可能只够运行一个模块ww),我当时负责论文，写大佬的思路和模型框架的时候学到了很多,时隔几个月，做一下方法总结。intro美赛C题主体是对外来入侵大黄蜂的检测，已知的信息是发现的时间、经纬度、图片、视频和语言描述，部分样本已经完成检测，我们需要做的就是完成

2021-03-26 12:11:02 3314 3

原创数值分析笔记

这里是数值分析的部分笔记，(对前三章的算法都用python做了实验，程序见具体内容处)PS：其中比较不重要的地方偷懒用了一点点numpy的API。内容写的比较简略，仅供参考，望见谅（更详细的数值分析Java实现请见清华相关实验网站）文章目录Chap 1:误差calculate：浮点数Chap 2:解方程组解线性方程组的Gauss消去法优化方法1:列主元Gauss消去法优化方法2：按比例列主元消去法优化方法3：Gauss-Jordan 消去法直接三角分解法1.LDR分解2.Doolittle分解3.Cr

2021-03-12 20:06:31 2761

原创 note2Markov Decision Process(MDP)

Markov Decision Process(MDP)Markov Property:Just depend on current statusMarkov Process/Markov Chain state transition matrix P :p(st+1=s′∣st=s)p(s_{t+1}=s'|s_t=s)p(st+1=s′∣st=s)从一个节点到另一个节点的概率Markov Reward Process(MRP):add reward weightsHorizon:steps

2020-10-23 23:23:46 215

原创强化学习note1导论

Textbook:Sutton and Barton reinforcement learning周博磊老师中文课coding架构:Pytorch与supervised learning 的区别:监督学习:1.假设数据之间无关联i.i.d. 2.有label强化学习:不一定i.i.d;没有立刻feed back(delay reward) explorati

2020-10-20 13:42:36 254

原创《概率论与数理统计》作业一，python画频率分布表

《概率论与数理统计》作业一，python画频率分布表5.12：5：6：5.22：3:5:5.33:4:5：8:10:13:24:28:(1)(2)(3)频率分布表画图函数(按照分割区间大小/按照分组(1)按照分组数（2）按照分割区间大小5.12：总体：全体成年男子的抽烟情况样本：50个同学调查到的全部5000名男子总体分布：Bernoulli分布5：总体：某场生产的所有电容器样本：抽出的n件产品样本分布：假设每个样本的分布iid,且都服从指数分布P(X1=x1,X2=x2,...,X

2020-10-05 19:53:35 2666

原创天池nlp学习赛（6）基于机器学习的文本分类3 (Bert)

基于深度学习的文本分类3文章目录基于深度学习的文本分类3part1:文本表示方法4 — 编码器:Transformer(1)位置编码(2)自注意力机制(3)残差连接(4)feed forwardpart2:两种预训练的方式(1)Masked LM (masked language model)(2)Next Sentence Predictionpart3:微调使用方法（1）模型训练（2）微调这里只说明一下其中的文本分类部分:另外对于bert网络上还有其它一些包可以借鉴(HuggingFace 里面有tr

2020-08-13 14:14:32 462

原创天池NLP学习赛（5）基于深度学习的文本分类2（word2vec与TextCNN实现文本分类）

文章目录基于深度学习的文本分类2part 1:文本表示方法 3:word2vec(一) 主要内容（二）word2vec例子（1）使用gensim库（2）word2vec API(3)训练集文本处理与模型训练（4）模型查看与使用part 2:TextCNN（一）利用训练好的word2vec模型嵌入训练集(1) 先构造一个字典来表示每个词与对应的词向量(2)把input的文字变为数字(4)带入模型(5)把lable编码，进行模型测试part 3:TextRNNpart 4:HAN (Hierarchical A

2020-08-02 01:34:53 2062 2

原创天池NLP学习赛(4)基于深度学习的文本分类(fastText)

fastText文本表示方法 Part2学习地址在上一章节，我们介绍几种文本表示方法：One-hot、Bag of Words、N-gram、TF-IDF缺陷是:转换得到的向量维度很高，需要较长的训练实践；没有考虑单词与单词之间的关系，只是进行了统计。确切地说:只是将文本中的各个词汇的某个统计量作为特征，没有利用单词所在位置的信息与这些表示方法不同，深度学习也可以用于文本表示，还可以将其映射到一个低纬空间。其中比较典型的例子有：FastText、Word2Vec和Bert。在本章我们将介绍Fa

2020-07-27 22:11:03 358

原创天池NLP学习赛（3）基于机器学习的文本分类

文章目录基于机器学习的文本分类文本表示方法step 1:one-hotstep 2:Bag of Words（词袋表示/Count Vectors)step 3:N-gramstep* : 对中文文本的操作step 4:TF-IDFexample&practice1.Bags of words& RidgeClassifier2.TF-IDF & SVM基于机器学习的文本分类文本表示方法step 1:one-hot将每一个单词使用一个离散的向量表示。具体将每个字/词编码一个索

2020-07-25 22:58:37 314

原创天池NLP学习赛（2）EDA

EDAimport numpy as npimport pandas as pdPath=r"C:/Users/10539/Desktop/nlp/"df_train = pd.read_csv(Path+'train_set.csv', sep='\t')df_test = pd.read_csv(Path+'test_a.csv', sep='\t')=df_train.head() label text

2020-07-23 00:29:45 288

原创天池NLP学习赛（1）赛题理解

天池NLP学习赛（1）赛题理解题目题目类型:新闻文本分类(字符识别问题)链接数据:赛题数据为新闻文本，并按照字符级别进行匿名处理，数字编码形式呈现。整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据由以下几个部分构成：训练集20w条样本，测试集A包括5w条样本，测试集B包括5w条样本。评价标准：f1_score均值baseline1.做了简单EDA，词条的描述性统计2.用CNN做了初步的分类（可以考虑调节网络

2020-07-21 20:54:23 373

原创数据分析初探——以2020百度&西安交大大数据竞赛：传染病感染人数预测为例

文章目录数据分析初探——以2020百度&西安交大大数据竞赛：传染病感染人数预测为例比赛的大致情况环境配置与相关包的配置anaconda和pytorch（顺带tensorflow）的配置GPU的配置写这个Notebook的配置数据处理一些数据处理软件的选择这次比赛的数据处理比赛提供的数据格式数据处理的主要步骤stata，SPSS数据处理的一些方法python pandas包的使用numpy 包操作arraycsv文件读写有关问题python 程序编写中发现的问题和tricks简单可视化数据编码与转换（

2020-07-03 12:25:29 4322 3

Loiser1的博客