1.交通流量数据,气象云图数据,邮件网络数据,微博传输数据;
2.互联网应用:移动互联网、社交网络、电子商务...
非互联网应用:医学、气象、传感器...
3.搜索引擎、社交网络、电子商务、互联网电视、游戏、移动互联网
4.爆发式增长:实时数据、非结构化数据、机器数据...
5.社会化趋势:UGC(用户生成内容)、用户行为、用户关系、大量的碎片化的信息...
6.大数据的特征:体量大(Volume)、多样性(Variety)、价值密度低(Value)、速度快(Velocity)
7.大数据技术的挑战:现有数据库处理技术、多样性数据的存储、实时数据处理技术、网络架构数据中心以及运维
8.分析技术:
数据预处理(自然语言处理)
统计和分析(A/B test、top N排行榜、地域占比、文本情感分析...)
数据挖掘(聚类、分类、关联、预测、统计学习、人工智能、机器学习、建模仿真)
9.大数据技术:
数据采集(网络日志、传感器数据、气象数据...)
数据存储(结构化数据》关系型数据库》SQL,非结构化数据》非关系型数据库》NoSQL,班结构化数据》转为结构化数据存储/按非结构化数据存储》云存储、ETL工具)
10.大数据的机遇与挑战
电力局利用电表数据预测房屋空置率;
隐私安全问题;
11.大数据应用心得
数据要有价值;
数据越多越好;
深度挖掘,精准营销;
12.搜索引擎概述
定义:以web相关技术为基础,对网络信息资源进行抓取与采集,建立索引数据库,并对搜索结果进行排序,能依据用户需求查找相应信息的在线搜索系统。
搜索的分类:大搜索(网页搜索)、垂直搜索(专业、分类搜索)、基于语义的搜索;
搜索引擎的分类:元搜索引擎、集成搜索引擎;
搜索引擎的体系结构:爬虫》索引器》检索器》用户接口
搜索引擎的基本步骤:爬虫》信息抽取》分词》外链分析》数据存储》结果获取》相关度排序》效能优化
爬虫
要求:全面、快速、非重;
限制:有限的带宽和无限的网络,无法确定更新状态,不断变化的内容和URL,需要有礼貌的访问;
信息抽取
页面分类,解析页面,内容抽取,排重;
内容的初步理解
分词的准确性
内容的深度理解
客观索引(作者、URL、更新时间...)》索引《内容索引(关键词、权重、短语...;单索引和双索引)
外链分析
外链:外链词是关键内容的提炼;静态权重(网页的相对重要程度)和动态权重(与检索词相关的)==》相关性;
局限(没有网页整合能力)》搜索引擎《补充(社区和知识库)
13.推荐系统的表现形式
购物篮分析》推荐系统》个性化推荐
常见表现形式:猜你喜欢,买了又买,精品推荐,关联互补;
14.推荐系统的基本算法
CF协同过滤算法:
基于用户的过滤
易于实现
频繁计算
基于物品的过滤
不需要频繁计算
不容易实现
聚类及相似度算法:
聚类算法
聚类的结果使同一个簇中的对象之间具有较高的相似,而不同簇中的对象差别较大
常见的聚类算法:
基于密度的聚类
基于划分的聚类
基于距离的聚类
基于概率分布的聚类
相似度分类:
欧几里得距离相似度
余弦相似度
调整余弦相似度
皮尔森相关性相似度
斯皮尔曼相关性相似度
基于谷本系数相似度
基于知识的推荐算法:
基于知识推理来产生推荐
不依赖于用户评分,不存在冷启动问题
用户偏好发生变化时,不需要额外训练
推理方式
规则推理
本体推理
案例推理
关联规则算法
Apriori算法
FP-Growth算法
分类算法:贝叶斯分类SVM
画像建模:用户行为
效用推荐:可靠性,可得性
社交网络:N度好友理论
登录首页(新款推荐)》物品详情页(推荐组合)》购物页(价格优惠)》订单页(买过还买)
收藏页(精品推荐)
推荐系统10大挑战:
数据稀疏,冷启动,增量计算,多样性与精确性的选择,推荐系统的脆弱性,用户行为的挖掘和利用,推荐系统的评估,用户界面与用户体验,多维数据交叉利用,社交网络推荐。
15.舆情监控系统
舆情=舆论情况
网络舆情》互联网首发或传播/表达的主体是网民
来源:网站新闻评论,论坛与BBS,QQ,MSN,博客BLOG,微博,微信
舆情监控的难点:
抓到实时信息;
找到与我相关的信息;
找到最需要的信息;
全网监控;