Sweeney Chen-CSDN博客

原创向量数据库

向量数据库概念、特点及应用领域

2023-09-01 11:00:10 231

原创 sqlzoo--self join

sqlzoo–self join已有字段：table:stopstable:routeidnumnamecompanyposstop数据库中有多少个站点select count(id) from stops;找出车站‘craiglockhart’的idselect id from stopswhere name = ...

2019-09-18 20:03:02 624

原创 sqlzoo--using null

sqlzoo–using nulltable:teacher教师id編號dept學系name名字phone內線電話mobile流動電話1011Shrivell275307986 555 12341021Throd275407122 555 19201031Splint2293104Spiregrain328710...

2019-09-16 22:00:47 439

原创 sqlzoo--the join operation

The JOIN operationTABLE game:id(編號)mdate(日期)stadium(場館)team1(隊伍1)team2(隊伍2)10018 June 2012National Stadium, WarsawPOLGRE10028 June 2012Stadion Miejski (Wroclaw)RUSCZE1003...

2019-09-02 18:58:56 423

原创 sqlzoo--sum and count

SUM and COUNTnamecontinentareapopulationgdpAfghanistanAsia6522302550010020343000000AlbaniaEurope28748283174112960000000AlgeriaAfrica238174137100000188681000000Andorr...

2019-08-27 00:00:30 378

原创 sqlzoo--More JOIN operations

More JOIN operationsmovie电影（id编号,title电影名称,yr首映年份,director导演,budget预算,gross票房)actor(id编号,name姓名)casting(movieid电影编号,actorid演员编号,ord角色次序)列出1962年首映的电影，显示其id,titleSELECT id,title FROM movie WHE...

2019-08-25 14:56:06 341

原创 sqlzoo--select from nobel ,select in select

sqlzoo(2)select from nobel 字段：yr（年份）,subject（奖项）,winner（获奖者）yrsubjectwinner1960ChemistryWillard F. Libby1960LiteratureSaint-John Perse1960MedicineSir Frank Macfarlane Burnet...

2019-07-21 15:06:25 647

原创 sqlzoo--select basics,select from world

sqlzoo(1)world表格:namecontinentareapopulationgdpAfghanistanAsia6522302550010020343000000AlbaniaEurope28748283174112960000000AlgeriaAfrica238174137100000188681000000A...

2019-07-20 12:12:24 264

原创 Excel常用函数

excel常用函数同一张工作表最多有256列（列、属性、字段、维度），最多有65536行（行、记录、数据）Ctrl+多个工作表可形成工作组保护单元格步骤：取消整张工作表的锁定锁定要保护的单元格设置保护密码相对引用与绝对引用：绝对引用前加$相对引用：随着拖动引用单元格位置会变化绝对引用：随着拖动引用单元格位置不会变化count函数、countif函数、coun...

2019-06-12 12:12:34 3701

原创数据分析思维与业务指标

数据分析思维与业务指标数据分析一般流程：用户行为——原始数据——加工数据——可视化——数据决策——数据产品应用数据分析的三种核心思维：结构化将分析思维结构化，将论点归纳整理、递进拆解、完善补充（可借助思维导图）公式化上下互为计算，将论点可数据化表示。左右呈关联，最小不可分割。业务化用结构化思考+公式化拆解获得的最终分析论点往往只是现象，数据是某个结果的体现，但不代...

2019-06-11 11:43:13 1649

原创 python爬取网易云音乐生成王力宏歌曲词云

python爬取网易云音乐生成王力宏歌曲词云# -*- coding:utf-8 -*-# 网易云音乐，通过歌手id生成词云import requestsimport sys,re,osfrom wordcloud import WordCloudimport matplotlib.pyplot as plt import jiebafrom PIL import Image i...

2019-05-21 18:29:41 2775

原创信用卡违约率分析

信用卡违约率分析使用网格搜索的方式：# -*- coding: utf-8 -*-# 信用卡违约率分析import pandas as pdfrom sklearn.model_selection import learning_curve, train_test_split,GridSearchCVfrom sklearn.preprocessing import StandardS...

2019-05-21 18:24:40 1314

原创 AdaBoost算法

AdaBoost算法集成算法通常有两种方式，分别是投票选举（bagging）和再学习（boosting）。bagging的方式在做投票选举的时候可以并行计算，多个弱分类器单元的决策是相互独立的，不存在依赖性。boosting是每次训练的时候都对上一次训练进行改进提升，在训练过程中弱分类器单元之间存在依赖性，当引入第K个分类器的时候，实际上是对前K-1个分类器的优化。AdaBoost即为自适...

2019-05-21 11:25:03 927

原创 PageRank算法

PageRank算法PageRank算法基于论文影响力因子的思想提出：当一篇论文被引用的次数越多，证明这篇论文的影响力越大PageRank 的简化模型：一个网页的影响力 = 所有入链集合的页面的加权影响力之和，公式表示为：PR(u)=∑v∈BuPR(v)L(v)P R(u)=\sum_{v \in B_{u}} \frac{P R(v)}{L(v)}PR(u)=v∈Bu∑L(v)...

2019-05-20 20:40:54 3070

原创关联规则挖掘Apriori

关联规则挖掘Apriori及FP-Growth算法关联规则中的几个概念：支持度：某个商品组合出现的次数与总次数之间的比例。支持度越高，代表这个组合出现的频率越大。置信度：是个条件概念，即在A发生的情况下，B发生的概率是多少。提升度：当A出现时，对B出现概率的提升程度。提升度(A→B)=置信度(A→B)/支持度(B)提升度(A→B)>1：代表有提升提升度(A→B)=...

2019-05-18 20:43:29 1153

原创 EM最大期望算法

EM最大期望算法EM算法是一种求解最大似然估计的方法，通过观测样本，来找出样本的模型参数。最大似然估计是一种通过已知结果，估计参数的方法。EM算法中的E步骤就是通过旧的参数来计算隐藏变量，M步骤是通过得到的隐藏变量的结果来重新估计参数，直到参数不再发生变化。EM聚类在求解的过程中每个样本都有一定的概率和每个聚类相关，叫做软聚类算法。常用的EM聚类有GMM高斯混合模型和HMM隐马尔科夫模型...

2019-05-17 11:48:06 1057 1

原创 K-Means

K-MeansK-Means的工作原理：随机选取K个点作为初始的类中心点将每个点分配到最近的类中心点，然后重新计算每个类的中心点重复第二步，直到类不发生变化，或达到最大迭代次数K-Means的引用：from sklearn.cluster import KMeansK-Means的创建：KMeans(n_clusters=8, init='k-means++', n_init...

2019-05-16 20:39:47 454

原创 KNN

KNNKNN工作原理：计算待分类物体与其他物体之间的距离；统计距离最近的K个邻居；对于K个最近的邻居，它们属于哪个分类最多，待分类物体就属于哪一类。K值的选择：K值较小时，容易过拟合K值较大时，容易欠拟合一般采用交叉验证的方式选取 K 值距离的计算：两个样本点之间的距离代表了这两个样本之间的相似度。距离越大，差异性越大；距离越小，相似度越大。距离的计算方式：欧氏...

2019-05-16 15:06:08 356

原创支持向量机SVM

支持向量机SVMSVM工作原理：从低维向高维映射，找到能够区分类别且分类间隔最大的超平面。SVM就是求解最大分类间隔的过程。分类间隔：di=∣ωxi+b∣∥ω∥d_{i}=\frac{\left|\omega x_{i}+b\right|}{\|\omega\|}di=∥ω∥∣ωxi+b∣最大间隔的优化模型：SVM的目标就是找出所有分类间隔中最大的那个值对应的超平面，属于数学...

2019-05-15 16:14:26 275

原创朴素贝叶斯

朴素贝叶斯涉及概念：先验概率：通过经验来判断事情发生的概率后验概率：发生结果后，推测原因的概率条件概率：事件A 在另外一个事件B已经发生条件下的发生概率，记P(A|B)似然函数：关于统计参数的函数贝叶斯原理：求解后验概率P(Bi∣A)=P(Bi)P(A∣Bi)∑j=1nP(Bj)P(A∣Bj)P\left(B_{i} | A\right)=\frac{P\left(B_{i}\...

2019-05-15 11:02:04 207

原创决策树

决策树决策树基于二分类思想，类似于编程语言中的if-else，决策树通常会有两个阶段：构造和剪枝。构造：构造的过程就是选择什么属性作为节点的过程。构造过程中会存在三种节点：根节点：最开始的节点内部节点：树中间的节点叶节点：决策结果剪枝：目的是为了防止过拟合。可分为预剪枝和后剪枝。预剪枝是指在决策树构造时进行剪枝。在构造过程中对节点进行评估，如果对某个节点进行划分，在验证...

2019-05-14 20:11:17 601

原创数据变换、可视化

数据变换、可视化数据变换前的准备工作：字段过滤、数据探索、相关性分析、建模筛选在数据变换前，我们需要先对字段进行筛选，然后对数据进行探索和相关性分析，接着是选择算法模型（这里暂时不需要进行模型计算），然后针对算法模型对数据的需求进行数据变换，从而完成数据挖掘前的准备工作。数据变换通过数据平滑、数据聚集、数据概化和规范化等方式将数据转换成适用于数据挖掘的形式。常见变换方法：数据平滑...

2019-05-14 17:11:50 1138

原创数据清洗、数据集成

数据清洗、数据集成整个数据分析过程中，数据清洗大概占到了80%。数据质量准则：完整性：单条数据是否存在空值，统计的字段是否完善。全面性：观察某一列全部数据值可通过常识判断该列在数据定义、单位标识、数字本身方面是否有问题。合法性：数据的类型、内容、大小的合法性。唯一性：数据是否存在重复。对于缺失值的处理通常采用三种方法：删除：删除数据缺失的记录均值：使用当前列的均值d...

2019-05-14 10:28:36 3788

原创数据采集及采集工具八爪鱼的使用

数据采集及采集工具八爪鱼的使用一个数据的走势是由多个维度影响的，因此我们需要通过多源的数据采集，尽可能收集到更多的数据维度，公司保证数据质量，才能得到高质量的数据挖掘结果。数据源分类：开放数据源：政府、企业、高校等爬虫获取：网页、APP等日志收集：前端采集、后端脚本等传感器：图像、测速、热敏等开放数据源：可以从两个维度来考虑，一个是单位的维度，比如政府、企业、高校；一个就是行...

2019-05-13 21:58:06 15102

原创商业智能BI、数据仓库DW、数据挖掘DM

商业智能BI、数据仓库DW、数据挖掘DM商业智能BI、数据仓库DW、数据挖掘DM三者联系：商业智能可通过数据来预测消费者行为等。消费者的相关数据通常存储在数据仓库中。数据挖掘可以从消费者行为数据中分析总结出规律。商业智能BI(Business Intelligence)，可以说是基于数据仓库，通过数据挖掘，得到商业价值的过程。数据仓库DW(Date Warehouse)是BI的基础，将原...

2019-05-13 21:35:36 662

原创 pandas练习（二）

pandas练习（二）透视表的创建df = pd.DataFrame({'A': ['one', 'one', 'two', 'three'] * 3, 'B': ['A', 'B', 'C'] * 4, 'C': ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2, ...

2019-05-13 18:05:24 443

原创用户画像及项目实例：电商用户画像

用户画像所谓用户画像就是标签的汇总，从用户不同方面信息中提取有价值特征来构建标签库，并从标签库中探索信息，从而构建用户画像。用户画像建模：第一步：统一用户唯一标识用户唯一标识是整个用户画像的核心，方便跟踪和分析一个用户的特征。设计唯一标识的选择：用户名、注册手机号、联系人手机号、邮箱、设备号、CookieID等。第二步：给用户打标签，即用户画像用户消费行为分析，可从4个维...

2019-05-12 20:41:29 4377 2

原创 pandas练习（一）

pandas练习（一）建立一个以 2018 年每一天为索引，值为随机数的 Seriesdti = pd.date_range(start='2018-01-01',end='2018-12-31',freq='D')s = pd.Series(np.random.rand(len(dti)),index=dti)s统计s 中每一个周三对应值的和s[s.index.weekday ==...

2019-05-12 17:21:41 1857

原创数据挖掘基本流程

数据挖掘基本流程数据挖掘基本流程：商业理解：从商业的角度理解项目需求，通过数据挖掘来帮助业务。数据理解：尝试手机部分数据，对其进行探索，从而对数据有个初步认知。数据准备：收集数据并对其清洗、集成等操作，完成数据挖掘前的准备。模型建立：选择和应用各种算法模型，并进行优化，以得到更好分类结果。模型评估：对模型进行评价，并检查模型的每个步骤，确认模型是否实现商业目标。上线发布：通过数据挖...

2019-05-12 13:10:13 7030

原创 numpy练习（二）

numpy练习（二）对于二维随机数组中各元素，保留其 2 位小数z = np.random.random((5,5))print(z)np.set_printoptions(precision=2)z使用科学记数法输出 NumPy 数组z = np.random.random([5,5])print(z)z/1e3使用 NumPy 找出百分位数（25%，50%，75%）z...

2019-05-11 21:06:04 750

原创 numpy练习（一）

numpy练习（一）创建一个 5x5 的二维数组，其中边界值为1，其余值为0Z = np.ones((5,5))Z[1:-1,1:-1] = 0Z使用数字 0 将一个全为 1 的 5x5 二维数组包围import numpy as npz = np.ones((5,5))z = np.pad(z, pad_width=1, mode='constant',constant_val...

2019-05-11 17:22:52 6999

原创 mysql索引、视图、导入、导出

mysql索引、视图、导入、导出索引索引是一种与表有关的结构。当表中有大量记录时，若在没有索引的情况对表进行查询，其会将所有记录一一取出，和查询条件进行一一对比，然后返回满足条件的记录。因此会消耗大量数据库系统时间，并造成大量磁盘 I/O 操作。而如果在表中已建立索引，在索引中找到符合查询条件的索引值，通过索引值就可以快速找到表中的数据，可以大大加快查询速度。对一张表中的某个列建立索...

2019-05-10 21:23:56 1123

原创 Python数据分析：特征降维-主成分分析（PCA)

Python数据分析：特征降维-主成分分析（PCA)principal components analysis(PCA)用于减少数据集的维度，同时保持数据集中对方差贡献最大的特征保留低阶主成分，忽略高阶成分，低阶成分往往能够保留数据最重要方面方差与协方差：用于衡量一系列点在它们的重心或均值附近的分散程度方差：衡量数据点在一个维度的偏差协方差：衡量一个维度是否会对另一个...

2019-05-08 14:36:31 11575

原创 Linux：vim编辑器

Linux：vim编辑器vi简介vi是“Visual interface”的简称，它在Linux上的地位就仿佛Edit程序在DOS上一样。它可以执行输出、删除、查找、替换、块操作等众多文本操作，而且用户可以根据自己的需要对其进行定制。Vi不是一个排版程序，它不象Word或WPS那样可以对字体、格式、段落等其他属性进行编排，它只是一个文本编辑程序。 vi没有菜单，只有命令，且命令繁多。Vi有...

2019-05-07 14:56:35 93

原创 Python数据分析：scikit-learn基础（二）

Python数据分析：scikit-learn基础（二）使用scikit-learn流程准备数据集数据处理数据集格式二维数组，形状（n_samples,n_features)使用np.reshape()转换数据集形状特征工程特征提取特征归一化(normalization)……分割训练集、测试集train_test_split()特征归一化（normaliza...

2019-05-06 14:55:01 476

原创 Python数据分析：scikit-learn基础（一）

Python数据分析：scikit-learn入门（一）基本步骤：加载示例数据集digits在训练集上训练模型SVM模型LR模型.fit() 训练模型在测试集上测试模型.predict() 进行预测保存模型pickle.dumps()加载模型预测加载示例数据集from sklearn import datasetsdigits ...

2019-05-05 16:02:25 558

原创 Python数据分析：人工神经网络（ANN)

Python数据分析：人工神经网络（ANN)神经网络基本组成：输入层（input layer），隐藏层（hidden layer），输出层（output layer）每层由神经元或单元组成输入层由训练集的样本特征向量传入经过连接节点的权重（weight）传入下一层，上一层的输出是下一层的输入上一层中的加权求和，然后根据非线性方程转化为下一层的输入对于多层神经...

2019-05-05 10:18:30 5610 1

原创 Python数据分析：常用图像特征

Python数据分析：常用图像特征常用图像特征颜色特征纹理特征形状特征skimage中的特征方法 skimage.feature颜色特征图像检索中应用最为广泛的视觉特征颜色直方图：从256种灰度颜色分为k个区间，然后计算每个区间中像素点总数。图像形状特征形状特征值的表达必须对图像中物体或区域的分割为基础SIFT(Scale-invariant feat...

2019-05-04 21:37:44 2164

原创 Linux常用服务器构建-ssh和scp

Linux常用服务器构建-ssh和scpssh介绍SSH为Secure Shell的缩写，由 IETF 的网络工作小组（Network Working Group）所制定；SSH 为建立在应用层和传输层基础上的安全协议。SSH是目前较可靠，专为远程登录会话和其他网络服务提供安全性的协议。常用于远程登录，以及用户之间进行资料拷贝。使用SSH服务，需要安装相应的服务器和客户端。客户端和服务器...

2019-05-04 16:46:11 169

原创 Python数据分析：scikit-image

Python数据分析：scikit-imagescikit-imagePython中用来进行图像处理的常用包之一图像数据通过numpy中的ndarray表示通常和numpy、SciPy共同使用进行图像数据的处理skimage的图像数据skimage中的图像数据是由numpy的多维数组表示由skimage加载的图像数据可以调用其他常用的包进行处理和计算，如matplotlib、S...

2019-05-04 14:30:10 1317

Mountains.csv

ENVI去云补丁Haze_tool文件及其使用说明和安装方法

matlab视频教程

基于matlab的小波变换遥感图像融合

空空如也