dd112474-CSDN博客

原创 SQLsever2017创建数据库，表，insert插入，update更新，delete删除

sqlserver2017中通过点击创建数据库和选择数据库，创建表，查看表，insert 插入值，update set 修改value，通过update set where 只修改某一行，使用delete from where 删除某行

2023-04-20 23:14:33 289

原创数据挖掘1/13

软件：jupyter 和spss moduler（一个月试用）数据挖掘：数据标注1w条，训练后判断是否垃圾邮件。抖音背景音乐分析，用什么背景音乐容易火。数据分析：后见之明，人为驱动，研究数据。数据挖掘：先见之明，发现驱动，数据研究。图片分类y（动物、人类、建筑）什么文本，图片的项目容易成功。聚类是探索数据很好的一个方法。众筹网站：GoFundMe。数据分析：找特征，用词情况。1B（Byte字节）；魔镜-中医看面相，舌苔。是否购房y（是、否）

2023-03-01 08:01:26 199

原创沟通管理课

创业沟通第一节网课的笔记。

2022-10-09 15:08:47 166

原创学科前沿讲座文本分类TextClassfication

GloVe的全称叫Global Vectors for Word Representation，它是一个基于全局词频统计（count-based & overall statistics）的词表征（word representation）工具，它可以把一个单词表达成一个由实数组成的向量，这些向量捕捉到了单词之间一些语义特性，比如相似性（similarity）、类比性（analogy）等。这个模型的缺陷：前面的所有的词的重要性都以一个x表示了，使得前面词语与当前词语的语序的顺序的重要性被忽略了。

2022-09-28 21:08:32 391

原创商业分析课堂笔记商业数据

围绕业务目标展开，这里主要是降低客服不满率，而不是提高利润率，那我的目标应该是尽可能稳住利润，降低客户投诉。现在有4个乘客，都在Frankfurt等待前往London的第二程航班，现在只有2个座位。让用户等待一晚 or 为用户购买更贵的别的航班的机票。特殊情况：有小孩，老年人，残疾人，孤单小孩，紧急程度。用本次（4个人剩2座位的案例）进行效果验证。重新订票的引擎，为客户进行评估排序。电话投诉日志记录（很激烈的态度）家庭情况（是否有小孩，几个？建立一个优先度排序的y。

2022-09-28 10:34:08 80

原创研究方法课堂笔记1

将现实世界的物体做成数字版，而且会“动”，可以直接在数字版物体上进行实验，产生真实的效果。贸易数据，重点关注越南，主要贸易种类，可以东盟十国一起看，从而得出应该加强哪一块。医咖会学习网站（只教操作，不讲理论，简单粗暴 spss，stata，R）文献计量推荐王崇德的书，《图书情报学方法论》各种模型框架（PEST，SWOT等等，金字塔框架）类似于，AR，VR，MR中的MR（混合现实）what effect 效果分析。反复，及时修改，ddl就是生产力。每段第一句话有概括句。whom 受众分析。

2022-09-23 20:33:22 61

原创学科前沿讲座神经网络，机器学习，深度学习

机器学习的五个要素感知机多层感知机卷积和循环注意力机制机器学习中小解决方案。

2022-09-21 21:04:06 331

原创机器学习19 朴素贝叶斯算法NB 概念

有一个样本是否均衡的参数，为True时，后面乘以的P（嫁）和P（不嫁）也就不用算了，样本不均衡就调为False。P（A|B）表示在B条件下，A发生的概率（从后往前）不知道样本均不均衡，就不管这个参数，让电脑自己判断就可以了。的大小，分母是一样的，所以其实只需要比较分子大小就ok。条件概率和全概率是贝叶斯基础。贝叶斯是朴素贝叶斯的基础。

2022-09-09 22:44:35 318

原创机器学习17 逻辑回归的代码实现

比如集合（0,1，2,3，4），第一轮算出属于（0,1）（2,3，4）这俩个中的哪一类，假设属于（0,1）这里调参我还没做，估计和银行那个一样的，只要生成result，然后用DataFrame表示就行。注意，线性回归的score是最小R方，逻辑回归的score是准确度，范围是（0,1）比如集合（0,1，2）第一轮，先判断是不是0，是就结束，不是的话就在（1,2）中继续。第二轮就是看是不是1，是就结束，不是就看其他，这里只剩2，那就是2。先把框架写好，运行第一个出现的错误是，正则组合不匹配问题。

2022-09-09 22:00:27 447

原创机器学习18 数据清洗小任务（楼盘数据清洗）

这三列，例如：有电视，就在房间描述出现‘电视’这一列标1，或者在房间描述出现‘彩电’也标1，或者在房间描述出现‘电视机’也标1，或者在房间描述出现‘有线电视’也标1，判断标1还是0这个操作可以用lambda函数来实现，他和def定义一个函数效果一样，但是更方便，适用于这种简单的函数操作。整体看看有哪些指标，先去重，目的是想把指标选出来，有这个指标我就打上1，没有就打0 (效果如上图)思路是把要删除的指标生成一个列表存起来，遍历这个列表里面的指标，在result里面remove这些指标。

2022-09-08 18:47:41 450

原创机器学习16 逻辑回归LR 数学推导

KMeans 没有yDBSCAN 没有y，但是有半径和领域KNN 必须有y，y是离散型（看属于哪一类“近朱者赤”）线性回归 y是连续型逻辑回归 y是离散型。

2022-08-31 00:27:19 184

原创机器学习5 Kmeans重点汇总和后续补充

n_clusters :K值。max_iters:迭代次数。2，小于误差平方和或者阈值。1,达到约定迭代次数。tol：总误差平方和。

2022-08-30 19:00:27 69

原创机器学习15 线性回归（销售利润表.csv）调参实战代码 reshape（1，-1）

结果的准确性score全是负数，一是检查模型能不能调整优化，而是看看数据清洗转化是否出错，如果都没有那就不要用这个模型了，score要越接近1才越好。结果报错了，报错代码是：1D表示1维，arry表示numpy中的数组。目前运行就可以建模了，红色部分表示有效代码，其余部分自己打草稿用。但是报错了，有两种报错形式，是同一个意思：数组的行列反了，应该。还是会报错，因为这里一维数组是Series类型，我们要把。原因是我们这里是一维数组，线性回归必须要二维数组。或者直接出来以后强制转换一次。，后面直接调参就可以。.

2022-08-30 18:52:16 832

原创机器学习14 线性回归代码实现（boston房价）

还有就是，这里准确度用的数据是x_test 和 y_test ,要把上面代码的score写成。注意区分，一般lr缩写表示逻辑回归，线性回归不要用这个缩写。调参（在循环里建模，字典，追加，DataFrame显示）表示不进行归一化（归约），不进行归一化可以少一步计算量。最高的，有两个都是0.668759，都可以选，在python里是关键字，不加引号。...

2022-08-30 17:31:20 766

原创机器学习错误3 忘记使用fit() 导致报错`AttributeError: ‘LinearRegression‘ object has no attribute ‘coef_‘

特别提示一下：这里fit的数据是x_test 和 y_test 因为这里用的是线性回归，就关注x训练集和y训练集，之前的算法都是fit（data）就行了。调参（在循环里建模，字典，追加，DataFrame显示）一次，我这里只在外面fit（）一次是不行的。我又去先运行了，构建模型这两行也还是报错。是因为这里有循环，每一次循环都需要。加了一行模型预测（拟合），就OK了。.........

2022-08-30 16:20:07 5563

原创机器学习13 过拟合解决（lasso，岭回归），欠拟合，多元线性回归

所以这时候就用L1-lasso回归解决过拟合问题，λ越大（λ越敏感）这一坨对结果影响就越大，在不断迭代过程中，由于不断接近最低点，所以绿色的两坨都在不断的减小，而蓝色这坨里面的|Ki|是在不断增大（为了避免减小的步伐太大了，是一个。通俗理解原理：由于下山的时候步长可能过大，会出现走到第6步的时候，离最低点已经很近了但还没到最低点，这时候再走一步到第7点那个位置，发现这一步误差比上一步更大了，因此选择上一步为迭代的终点。(|Ki|)，其中λ是一个自己来定的常数(正数)，λ越大后面这坨小尾巴的影响效果就越大。.

2022-08-30 00:52:57 1297

原创机器学习12 线性回归：梯度下降，最小二乘法,相关性corr

线性回归：1，监督算法2，y是连续的，属于回归算法（KNN是离散的y，属于分类算法）我的理解：一个人，站在山顶（红色部分），他想走到山脚（蓝色半部分），他迈出的每一步的步幅（学习率α）是相同的。那么，他往越陡的方向走，就越快到达山脚，这里“越陡”就是沿着斜率方向，而斜率就是求偏导，这也就是为啥线性回归那里误差函数前面有个1/2方便在这里抵消偏导的*2梯度下降和最小二乘法都可以求得 y=ax+b 里面的a和b链接：梯度下降算法的通俗理解。...

2022-08-29 21:11:52 593

原创机器学习11 KNN调参

情况2:把测试集和训练集的划分放到了调参的循环中。调参之前把训练集和测试集准备好，只有参数在变化。情况1:调参只调了n neighbors。，同时两个数据都在变，所以结果准确性的。，由于test数据是随机抽取的，所以。结果跟参数之间的一个关系。特别说一下情况二，因为。...

2022-08-29 16:53:59 977

原创机器学习10 K最近邻（KNN）

K最近邻算法的核心思想是:如果一个样本在特征空间中的k个最相邻（最相似，距离最近)的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。2,算法原理：KMeans有挨个遍历各个点的距离，聚成簇，KNN没有。得到的预测数据y_p和测试数据y_test个数都一样，说明预测成功了。3，KNN结果是分类（监督类），KMeans结果是簇（非监督类）1，有没有y（监督，无监督）：KNN有y，监督类算法。所谓K最近邻，就是k个最近的邻居的意思，2，y是类别类型（y是离散的）......

2022-08-29 15:40:14 307

原创机器学习9 计算折线图拐点斜率的变化

可以发现这个DataFrame由于没有统一的列坐标，所以全部变到对角线上了，下一步我们就单独增设俩列变量，让它变成常见的DataFrame。发现从4-5变化量已经和上一次3-4的差很接近，变化很小了，所以从4以后这个区域都可以选（一般选4-6）现在的代码这么写也可以，单独把k和inertia提出来，对比一下两种写法。这里的第七个明显变大了，说明前一个比后一个大很多，因此，k取9-10。x和y已经得到两个list，只需要遍历到y的个数减一个。代码实现：分三个层次的成果，先展示成果，在详细拆解步骤。...

2022-08-29 13:31:05 1496

原创机器学习8 KMeans和DBSCAN分别对销售数据表聚类对比

这个前面都写过，下面是一个完整的流程，可以自己实践完整写一遍。直接看全文代码吧，DBSCAN在后半部分。

2022-08-29 00:13:28 341

原创机器学习错误2 将DataFrame完整导出成csv文件

比如：C:\Users\DANNY\Desktop\ ----> C:/Users/DANNY/Desktop/其中2处是导出文件的名称，可以自己取，我这里是叫DataFrame导出。但是这个表是简略版的，如果需要完整查看，就需要导出成CSV文件。在写代码时，我们会用到DataFrame来更直观的观察代码。只需要改变False和True即可，需要index就把。当然在此之前，需要在第一行import所需要的各种包。其中1处是导出的位置，需要注意的是复制过来的是。...

2022-08-26 12:48:11 2883

原创机器学习错误1 KMeans调参报错“关键字参数必须位于位置参数之后”

我这里无论如何改第六行的顺序都不对，问题出在 = 打成== 导致关键字参数max_iter 被计算机误认为是重要优先级高的位置参数了。传参的时候，必须先确定位置（未知参数），再写关键字参数。

2022-08-26 12:13:30 1245

原创机器学习7 DBSCAN和 KMeans优势比较

DBSCAN不用，但是要事先给半径和圈内最小点个数 eps 和 min_points_运用的时候可以两个都用，在对比说明为什么选这个算法。异常点对聚类结果影响不大（KMeans影响很大）DBSCAN可以发现任意形状的簇（最大优势）样本集密度不均匀，聚类间距相差很大不适合。噪声点多的话，建议用DBSCAN。KMeans需要事先给出K，调参比KMeans复杂一点点。...

2022-08-26 01:42:34 1246

原创机器学习6 DBSCAN 定义，代码，噪声点个数，调参

它将簇定义为密度相连的点组成的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类1，可以聚成任意形状的簇2，可以把噪声点排除在外，不属于任何簇（kmeans必须有一个簇）......

2022-08-26 01:33:22 1936

原创机器学习4 kmeans聚类成3个簇

标记质心 cluster_centers_ 结合刚才已经求得的质心坐标，第1列（索引0）为横坐标，第2列（索引1）为纵坐标，点图plt.scatter(横坐标对应数据列，纵坐标对应数据列，颜色c=clf.labels_,标记marker=‘x’)eg:只要索引为0的第一列，表示为 [:，0]，：表示行不要。注意，color用c肯定不会错，用color有时会报错。查看质心cluster_centers_查看每个点所属于的簇的标签labels_数据格式（左下）和最终结果（右上）

2022-08-24 13:21:05 1099

原创机器学习3 kmeans找最优K的2种方法

思想：最终是要找簇内误差平方和inertia最小，以及对应的k，那可以先给最后得到的min_inertia赋一个很大的值，每找到一个更小的就进行替换。先给最后得到的min_inertia赋一个很大的值，k初始值为0用来储存最后得到的n_clusters。判断inertia大小，将min_inertia替换成小的,同时把此时的i赋值给k。1，用.idxmin（）返回在请求轴上第一次出现最小值的索引。可以将字典生成一个一维数组更直观 .series()注意这俩返回的索引不一样，但是对应值是一样的。

2022-08-24 12:07:48 502

原创机器学习1.5 kmeans-最优参数模型的Dataframe+提取误差平方和tol最小一行的信息+折线图

【代码】机器学习1.5 kmeans-最优参数。

2022-08-23 00:44:02 493

原创机器学习2 kmeans预习（看1.5就行）

导入包–准备数据–拟合模型。

2022-08-22 14:28:27 195

原创机器学习1 计算准确率

python中return的作用,完善代码，方便以后复用。#三步走：定义–规则–赋值。

2022-08-19 22:06:58 335 1

原创【2】背诵

代码】【2】背诵。

2022-08-11 10:21:53 87

原创【1】背诵

代码】【1】背诵。

2022-08-11 09:50:05 130

原创【MySQL打怪升级之路】01基础理论&DDL

数据定义语言DDL对数据库、表、视图增删查改这个要背↑这个要背↑这个要背↑这个要背↑这个要背↑。

2022-07-18 23:44:20 145

原创 python 爬虫发送post请求

以腾讯翻译为例：工具：edge浏览器搜索腾讯翻译，右键–检查–换成移动端，手机型号iphonexr–在点击中文输入前先清除–点击输入“教师”，回车–左侧搜索teacher，显示只有一个，点击tips：因为移动端预览的json值不会不一致，不涉及js的知识，所以我们转换成移动端来做在网络标头找到url–在jupyter notebook写在负载中找到写字典的内容，复制到text中写成如下格式再按照下面这样写代码就Ok了，注意request 和requests的书写，两个用法不同写错会报错

2022-04-15 10:38:31 746

原创【毕业设计--开题报告】论文开题报告常见问题：参考论文格式，visio画箭头，wps段落设置

参考文献格式不对？错误示例：修改后，正确示例：经验：主要用到了段落，悬挂缩进的方法。1，复制参考文献到txt记事本中，全部在数字后面加上一个制表位（按一下tab键），再粘贴回开题报告中。2，在wps或者word中，选中所有参考文献，点击右键，段落>>对齐方式：两段对齐>>特殊格式：悬挂缩进>>度量值：2>>行距固定18磅wps段落按钮消失？选中后找不着段落选项？如图所示：开始>>右下角小角标参考原文链接：参考论文缩进w

2022-03-13 22:28:39 968

原创【python day1】win11环境下，安装anaconda3，步骤和常见问题

1，安装anaconda3勾选这个否则后面要到环境变量添加（见文末）安装成功后，win+r–输入cmd–python 出现版本说明成功安装2，打开jupyter notebook在文件夹中，点击按住shift点击右键–在Windows终端中打开输入 jupyter notebook 按回车注意：不要打错了成功进入页面点击第一个，发现没有安装目录栏打开anaconda3 prompt输入pip install jupyter_contrib_nbextensions 安

2022-02-21 12:32:37 7176

原创产品经理视角+意志力+大创视角：外卖第二次被偷后我发现了隐藏的“新大陆”

外卖第二次被偷后我发现了隐藏的“新大陆”在饿了么点了贵州花溪牛肉粉作为晚餐，因为我在图书馆，所以备注“放在门口桌子上，不要打电话！！”，由于疫情封校，以前外卖都是送到公寓楼下，现在就只能送到学校门口隔着栅栏取。不知道为啥，上一次被偷我就有预感：晚一会去不会被偷了吧……，结果，果然被拿走了，上一次我似乎还看到了拿我外卖的那个高个胖男生。（因为外卖小哥会在聊天框中拍照，我对那个包装袋有印象，而且第一次去的不算晚，我也没想到偷外卖行为从表白墙会真的发生在我身上。）好巧不巧，这次也是同样的时间，地点，同一家外

2021-09-25 22:46:27 289

空空如也

空空如也