大数据与人工智能
专栏收录大数据与人工智能方面的文章
中国-杨建业
行路难,行路难,多歧路,今安在!
展开
-
大数据应用---之---互联网金融---客户风险控制
一. 前言二. 大数据在互联网金融的应用1 金融反欺诈与分析2 构建更全面的信用评价体系3 高频交易和算法交易4 产品和服务的舆情分析三. 客户风险控制1 信用评分算法2 分类模型的性能评估一. 前言互联网 金融!"是指传统金融机构与互联网企业利用互联网技术和信息通信技术实现资金融通、支付、投资和信息中介服务的新型金融业务模式。互联网金融不仅仅是互联网和金融业的简单结合,还是在实现安全、移动等网络技术的基础上,被用户熟悉接受后,自然而然..原创 2020-07-04 14:28:58 · 976 阅读 · 3 评论 -
大数据应用案例---用户画像与精准营销
一. 前言二. 用户画像概述三. 用户画像的价值四. 用户画像构建流程1 数据收集与分析2 数据建模3 构建用户画像4 数据可视化分析五. 用户标签体系1 结构化标签体系2 半结构化标签体系3 非结构化标签体系一. 用户画像与精准营销前言大数据并不是一种全新的技术,它更多的是一种借助真实数据汇聚、数据分析及其可视化、分布式计算的,利用数据分析问题的思维方式和工作方法。面对大数据这新业态,政府、企业更关心的是如何让大数据落..原创 2020-07-04 14:02:17 · 7437 阅读 · 0 评论 -
数据处理---之---网页排序算法
一. 网页排序算法二. 网页排序算法分类1 基于访问量的排序算法2 基于词频统计和词语位置加权的排序算法3 基于链接分析的排序算法4 基于智能化的排序算法三. TD-IDF 算法1 词频(Term Frequency, TF)2 逆文档频率(Inverse Document Frequency, IDF)四. BM25算法五. PageRank 算法一. 网页排序算法在能将“包含某关键字的网页迅速查找出来”之后,另一个问题出现..原创 2020-07-04 12:35:09 · 5950 阅读 · 1 评论 -
数据处理---之---倒排索引---讲解
一. 倒排索引二. 倒排索引原理1 词语和文档的关系2 倒排索引的数据结构3 倒排索引的建立实例4 倒排索引的更新策略一. 倒排索引倒排索引(Inverted Index) 也被称为“反向索引”或“反向文件”,是一种索引数据结构。倒排索引在“内容”(例如,单词、数字)和存放内容的“位置”(例如,数据库、文件、一组文件)之间建立映射,其目的在于快速全文检索和使用最小处理代价将新文件添加进数据库。通过倒排索引,可以快速地根据“内容”查找到包含它的文件。倒排索引是目..原创 2020-07-03 23:31:01 · 2608 阅读 · 1 评论 -
数据处理之文本分词、MMSEG分词工具、斯坦福NLTK分词工具
一. 文本分词概述二. 中文分词算法分类三. MMSEG分词工具四. 斯坦福NLTK分词工具1 CRF方法实例一. 文本分词概述文本分词是将字符串文本划分为有意义的单位的过程,如词语、句子或主题。由计算机实现的文本分词结果也应该满足人类思维阅读文本时的处理模式。在现实中,英文词组是以单词为单位,以空格为分隔,在分词上具有巨大的便利性。例如,英文句子“What will the big data bring",用中文表示则为“大数据将带来什么”。计算机可以很简单地通过空..原创 2020-07-03 22:36:44 · 1586 阅读 · 4 评论 -
数据挖掘的前提---信息抓取:通用爬虫和聚焦爬虫
一. 互联网信息抓取二. 爬虫概述三. 通用爬虫和聚焦爬虫四. Nutch搜索引擎五. 爬虫实例分析:舆情信息汇聚一. 互联网信息抓取随着网络的迅速发展,Internet (万维网)成为当今世界最大的信息载体,每天又有不可计数的新数据涌入Internet 中。如今, 人们面临的一个巨大的挑战就是如何从海量数据中提取有效信息并加以利用。“ 要处理数据,就要先得到数据”,从Internet 上将数据获取下来,是进行数据处理的第一步。互联网信息自动抓取,最常见且有效的方式是使..原创 2020-07-03 21:55:52 · 5988 阅读 · 2 评论 -
数据可视化---以小见大,数据可视化基础讲解
一. 数据可视化及基本特征二. 数据可视化可视化的目标和作用1 数据表达2 数据操作3 数据分析三. 数据可视化流程1 数据获取2 数据处理3 可视化模式4 可视化应用四. 数据可视化方法1 文本可视化2 网络可视化3 时空数据可视化4 多维数据可视化一. 数据可视化及基本特征数据可视化是数据加工和处理的基本方法之一,它通过图形图像 等技术来更为直观地表达数据,从而为发现数据的隐含规律提供技术手段..原创 2020-07-03 17:22:06 · 2197 阅读 · 1 评论 -
深度学习案例:Caffe手写体数字识别
一. Caffe简介二. 数据准备三. 模型设计四. 模型训练五. 模型测试一. Caffe简介Caffe是一个清晰、 高效的深度学习框架,Cafe 安装包中自带了MNIST (手写体数字)的例子。本节将通过利用MNIST具体实例,了解深度学习应用的整个流程。二. 数据准备首先准备批图像数据。将图像数据集分为测试集和训练集两个部分, 并生成标签文件train.txt 和val.txt。 训练集用来建立模型,测试集用来评估模型的预测能力,标签文件用来标明数据分类..原创 2020-07-03 16:50:10 · 1057 阅读 · 0 评论 -
深度学习开源软件功能对比
软件开发语言CUDA支持分布式循环网络卷积网络RBM / DBNsTensorFlowC++、Python√√√√√CaffeC++、Python√×√√×TorchC++、Lua第三方实现×√√√TheanoPython√×√√√MXNetC++、Python,Julia、Matlab、Go、R、Scala√√√√√CNTKC++√×√√可借助“ConvertDBN comm...原创 2020-07-03 15:18:25 · 537 阅读 · 0 评论 -
大白话入门深度学习---探索深度学习的发展路线:人脑神经网络-人工神经网络-深度神经网络
12:49:126.2.3人脑神经网络人的大脑中存在着无数神经元,各个神经元相互连结,构成一个较大的神经网络,用来处理人脑从外界接收的信息。但是,人类的大脑并不是从一开始就能处理一些复杂的问题的。婴儿刚出生时,大脑的神经元已产生,并且迁移到大脑相关部位去了,但是此时的神经元还只有少量的突触,连接较为简单,仅能做出基本的神经反射。出生之后,面对外界的新环境,婴儿的大脑不断接收外部信息,各种信息刺激了婴儿的脑部发育,脑内的神经元之间不断重组、连接,形成更复杂的神经网络,使个体渐渐具有其他的活动能力。大地生原创 2020-07-03 14:50:23 · 1081 阅读 · 0 评论 -
数据挖掘与机器学习的联系与区别、挖掘工具Mahout、Spark MLlib讲解,Mahout和MLlib支持的机器学习算法列举
一. 数据挖掘与机器学习二. 数据挖掘工具Mahout讲解三. Mahout 在各平台所支持的机器学习算法四. 数据挖掘工具MLlib讲解五. MLlib 所支持的机器学习算法一. 数据挖掘与机器学习数据挖掘是识别出海量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单来说就是从海量数据中找出有用的知识。机器学习起初的研究动机是为了让计算机系统具有人的学习能力,以便实现人工智能。机器学习利用经验来改善计算机系统自身的性能,由于“经验”在计算机系统中是以..原创 2020-07-03 12:16:43 · 2098 阅读 · 4 评论 -
抖音美女越刷越多...数据挖掘惹的“祸”,淘宝精确营销与数据挖掘
一. 数据挖掘综合案例:淘宝网精确营销、抖音视频精准推荐二. 为什么要进行数据挖掘三. 实际案例分析方法与过程1 客户忠诚度分析2 客户群细分一. 数据挖掘综合案例:淘宝网精确营销、抖音视频精准推荐在淘宝上买东西,刚开始没什么感觉,买的越多越停不下来,“剁手”极其“残忍”。但这不是你的锅,淘宝的推荐算法抓紧你的心啊!同样,抖音一看上就停不下来,美女越刷越多有木有?支撑这些的就是数据挖掘。数据挖掘在各领域的应用非常广泛,只要该产业拥有具备分析价值与需求的数据..原创 2020-07-02 23:13:12 · 1290 阅读 · 1 评论 -
什么是ETL、Kettle,Kettle数据迁移、常用ETL工具
ETL:ETL是用来描述将数据从源端经过提取、转换、装入到目的端的过程。ETL是构建数据仓库的重要一环,它包含了三个方面,首先是“抽取”,将数据从各种原始的业务系统中读取出来,这是所有工作的前提。其次是“转换”,按照预先设计好的规则将抽取的数据进行转换,使本来异构的数据格式能统一起来。最后是“装载”,将转换完的数据按计划增量或全部导入到数据仓库中。常用ETL工具:ETL工具的典型代表有Informatica PowerCenter、IBM Datastage、Oracle Warehouse Buil.原创 2020-07-01 16:33:29 · 1025 阅读 · 0 评论 -
数据挖掘--“分类”详解、K最近邻、决策树、贝叶斯分类、支持向量机--算法讲解
一. 什么是分类二. 分类步骤三. 分类算法有哪些1 K最近邻算法2 决策树3 贝叶斯分类器4 支持向量机二.设计思路和设计构图一. 什么是分类?分类技术或分类法(Classification) 是一种根据输入样本集建立类别模型,并按照类别模型对未知样本类标号进行标记的方法。在这种分类知识发现中,输入样本个体或对象的类标志是已知的,其任务在于从样本数据的属性中发现个体或对象的一般规则,从而根据该规则对未知样本数据对象进行标记。分类是一种 重要的数据分析..原创 2020-07-02 11:30:30 · 2580 阅读 · 1 评论 -
数据挖掘常用算法有哪些?分类、聚类、预测、关联规则
数据挖掘常用算法1 分类在数据挖掘的发展过程中,由于数据挖掘不断地将诸多学科领域知识与技术融入当中,因此,目前数据挖掘方法与算法已呈现出极为丰富的多种形式。从使用的广义角度上看,数据挖掘常用分析方法主要有分类、聚类、估值、预测、关联规则、可视化等。从数据挖掘算法所依托的数理基础角度归类,目前数据挖掘算法主要分为三大类:机器学习方法、统计方法与神经网络方法。机器学习方法分为决策树、基于范例学习、规则归纳与遗传算法等:统计方法细分为回归分析、时间序列分析、关联分析、聚类分析、模糊集、粗糙集、探索..原创 2020-07-01 23:21:04 · 18457 阅读 · 0 评论 -
2020年了,还不懂数据挖掘?数据挖掘工具有哪些?
一. 数据挖掘定义二. 数据挖掘特征三. 数据挖掘工具1 Weka2 SPSS3 Clementine4 RapidMiner5 其他数据挖掘软件一. 数据挖掘定义数据挖掘:严格的科学定义上,数据挖掘是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。从技术角度分析,数据挖掘就是利用一系列的相关算法和技术,从大数据中提取出行业或公司所需要的、有实际应用价值的知识的过程。这些..原创 2020-07-01 23:07:45 · 3481 阅读 · 0 评论 -
数据挖掘--“聚类”详解、K-means、K-平均值算法、K均值算法
一. 什么是聚类二. 聚类步骤三. 聚类算法有哪些1 层次聚类算法2 划分聚类算法3 基于密度的聚类算法4 基于网格的聚类算法5 基于模型的聚类算法一. 什么是聚类?物以类聚,人以群分,聚类分析是一种重要的多变量统计方法。 聚类分析最早起源于分类学,最初,人们依靠经验将一类 事件的集合分为若干子集。随着科技的发展,人们将数学工具引入分类学,聚类算法便被细化归入数值分类学领域。后来,信息技术快速发展,新数据的出现呈井喷趋势,其结构的复杂性和内容的多..原创 2020-07-02 18:26:16 · 3019 阅读 · 0 评论