文章目录
资料总结来源于ppt以及学长 博客
第一章 概述
1.1 移动互联网简介
- 什么是移动互联网:将移动通信和互联网二者结合起来,成为一体。
从技术层面定义:以IP为技术核心
从终端定义:用户使用的移动终端 - 移动互联网组成
移动互联网三要素:网络、应用、终端 - 移动互联网的主要特点:高便携性;终端移动性;业务与终端、网络的强关联性;业务使用的私密性;局限性(体现在网络能力和终端能力上)
- 未来移动互联网的基本架构:COWMALS
- 未来是移动智能化时代
1.2 移动互联网发展过程
- 移动互联网的发展速度已远远超越摩尔定律,迭代周期从18个月缩短为6个月
- web发展简史
总结:1.0,可读取;2.0,可交互;3.0,可执行
- 移动网络类型:蜂窝网、无限局域网(WLAN)、个人局域网(PAN)
- 蜂窝移动通信网络将分配给系统的频谱资源划分成独立的信道
- 为什么需要蜂窝:频率复用
- 典型的蜂窝移动通信系统:MSC, BSS, SS7, PSTN
- 蜂窝技术分类:宏蜂窝、微蜂窝、智能蜂窝
- 下一代移动通信技术的两大驱动力:移动互联网和物联网
- 无线网络的基本类型:无限广域网、无限城域网、无限局域网、无线个域网、无线体域网
- 无线网络的协议模型
第二章 搜索引擎技术
2.1 简单爬虫
-
搜索引擎的工作:抓取网页信息、分析网页、找到相关文档
-
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。
-
搜索引擎的发展阶段
第一代搜索引擎的主要特征是:集中式检索
第二代搜索引擎大多采用分布式检索(产生原因:用户希望对内容进行查找,也就是利用关键字来查询)
第三代搜索引擎的代表是Google
第四代搜索引擎:从信息检索到信息推送的转变 -
搜索引擎的主要技术:信息收集和存储技术、信息预处理技术、信息索引技术
-
网络爬虫是一个通过既定规则(网络爬虫算法),能够自动提取网页信息的程序,是搜索引擎的重要组成部分
-
通用网络爬虫的基本工作流程:
一、获取初始的URL、
二、爬取对应网页时获取新的URL地址、
三、将新的URL地址放入URL队列、
四、根据新的URL爬取网页 、
五、设置停止条件 -
传统爬虫的基本流程:
一、发起请求:通过HTTP库向目标站点发起请求,也就是发送一个Request
二、获取响应内容:服务器能正常响应,会得到一个Response
三、解析内容:若得到HTML,可以用正则表达式
四、保存数据 -
浏览器加载网页过程
-
HTTP(HyperText Transfer Protocol),即超文本传输协议,但浏览器与Web服务器的连接是一种一次性连接,采用HTTP协议的程序默认使用的端口号为80,–HTTP协议以明文方式发送内容,不提供任何方式的数据加密
-
HTTPS:安全套接字层超文本传输协议 ,采用HTTPS协议的程序默认使用的端口号为443
-
Web服务器的工作原理:
一、建立连接:客户端通过TCP/IP协议建立到服务器的TCP连接
二、请求过程:客户端向服务器发送HTTP协议请求包( Request )
三、 应答过程:服务器向客户端发送HTTP协议应答包( Response )
四、关闭连接:客户端与服务器断开 -
Request–请求方式:常用方法有GET(从服务器上获取信息)、POST(是向服务器传送数据)
-
get和post的比较
-
Request请求的头部信息常包含:Accept(表示可接受的响应内容)、User-Agent(表示客户端的身份标识字符串)、Cookie(请求报文中可用的属性)
-
HTTP本身是无状态的,实现状态保持需要Cookie和Session
-
http的状态码
-
简单爬虫框架:爬虫调度端、模块URL管理器、网页下载器、网页解析器
-
网页中数据包括:
-
如何解析数据:正则表达式、开源库、DOM树
-
Python中将互联网上URL对应的网页下载到本地的常用模块是urllib和requests
-
HTTPError有异常状态码与异常原因,URLError没有异常状态码
-
Python中提供了多种解析网页数据的技术,包括正则表达式、XPath、Beautiful Soup、JSONPath
-
几种解析网页数据的技术(网页解释库)区别
-
正则表达式是一种定义了搜索模式的特征序列,是其中一种进行数据筛选的表达式,一条正则表达式也称为一个模式
-
贪婪模式是尽可能多的匹配:.* 懒惰模式是尽可能少的匹配:.*?
-
Python中引入了XPath以及支持XPath的第三方库lxml(大多数有关解析的功能都封装到 etree模块中),
-
HTML是一种结构化的标记语言,可以描述一个网页的结构信息
-
爬虫数据采集常用数据定位和数据匹配的三种方式:正则表达式,CSS样式、XPath
-
BeautifulSoup是python的一个第三方网页解释库
-
CSS的选择器用于选择网页元素,可以分为标签选择器、类选择器、id选择器三种
-
Robots协议的全程是网络爬虫排除标准,网站管理员可通过robots.txt来定义能够被网络爬虫所访问的权限,Robots协议是国际互联网界通行的道德规范
-
User-agent:用于描述搜索引擎爬虫的名字
-
图的遍历算法有:深度优先算法DFS和宽度优先算法BFS
-
最佳优先策略:
-
不重复抓取策略:
2.2 动态网页
- 动态页面的内容生成方式可以分成两类:服务端生成、客户端生成
- 服务器端生成:
Web页面中经常使用的脚本语言有:jsp、asp、php
另一种在服务器进行内容生成的途径是通过在HTML文档中嵌入SSI(Server Side Include)指令,包含这种指令的文件的默认扩展名是 .stm、.shtm 、 .shtml - 客户端生成:
在这种生成方式中,Web页面中需要嵌入一定脚本或插件。
常用的脚本语言包括JavaScript、VBScript、actionScript
插件包括Active X控件、Flash插件 - AJAX:Asynchronous JavaScript and XML(异步的JavaScript和XML ),改变了古老的用户请求–等待–响应这种Web交互模式 ,ajax最大的优点是在不重新加载整个页面的情况下,可以与服务器交换数据并更新部分网页内容
- 爬取动态网页的方法:通过浏览器审查元素解析地址、通过Selenium模拟浏览器抓
- 模拟登录的方式:模拟表单登录、使用Cookies登录、使用Selenium模拟登录
2.3 Scrapy框架
- scrapy的框架组成
- 在整个框架组成中,Spiders是最核心的组件
- Basic是基本爬虫模板,Crawl是自动爬虫模板
2.4 中文分词
-
网页信息预处理最主要的工作事抓取的网页中提取有价值的、能够代表网页的属性,然后根据一定的相关度算法进行大量复杂的计算,得到每一个网页针对页面内容及链接每一个关键词的相关度,并用这些信息建立索引数据库
-
中文文本处理中的句子级别的分析技术,可以大致分为词法分析、句法分析、语义分析三个层面
-
中文语句解释不仅仅在于字面上是什么,还在于怎么切分
-
所谓分词,指的就是将一个中文文本分割成若干个独立的、有意义的基本单位的过程
-
中文分词的难点主要在于:分词歧义消解、未登录词的识别、错别字、谐音字规范化、分词粒度问题
-
切分表示方案
-
一般分词方法:
基于词典的分词方法:它是将待处理的中文字符串与一个“尽可能全面”的词典中的词条按照一定的规则匹配
基于理解的分词方法:通过语义信息和语句信息来解决歧义分词问题
基于统计的分词方法:在上下文中,相邻的单字共同出现的频率越高,则在该种字组合方式下就越有可能是构成了一个词。 -
最常见的分词方法:基于词典匹配的方法,通过维护词典
-
正向最大匹配分词(FMM):所谓最大匹配,就是优先匹配最长词汇,
-
逆向最大匹配法(BMM):不同的是从句子末尾开始处理, 每次匹配不成功时去掉的是前面的一个汉字
-
BMM是逆向最大匹配法,切分精度略高于正向匹配
-
结巴中文分词支持的三种分词模式:精确模式(默认)、全模式、搜索引擎模式
-
为了提高查找词典、匹配的效率,不要逐个匹配词典中的词
-
TRIE树:又叫做前缀树或者是字典树,常用于加速分词查找词典问题,可以利用字符串的公共前缀来节约存储空间
-
首字散列表的一个单元是所对应汉字的TRIE索引树的根结点
-
统计分词 – 概率语言模型:
-
基于统计的分词方法:该方法的主要思想:词是稳定的组合,使用统计方法的分词系统,可以通过对语料库的信息进行统计分析,不需要切分词典,故可以实现无词典分词。
-
统计分词中的统计模型:
N越大提供了更多的语境信息,语境更具区别性。但是,参数个数多、计算代价大、训练语料需要多、参数估计不可靠。
N越小,语境信息少,不具区别性。但是,参数个数少、计算代价小、训练语料无需太多、参数估计可靠。 -
隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数
-
HMM的三个基本问题
-
结巴中文分词涉及到的算法包括:
2.5 文本相似性
-
文本相似度计算的常用模型:词袋模型、词向量模型
-
Word2vec(是一种著名的词嵌入(Word Embedding) 方法)工具主要包含两个模型:跳字模型skip-gram和连续词袋模型CBOW
-
文本向量化是文本表示的一种重要方式,是对文本进行编码
-
文本表示的意思是把字词处理成向量或矩阵,以便计算机能进行处理
-
文本表示按照粗细粒度划分,一般可分为字级别、词语级别和句子级别的文本表示。
-
离散表示的代表就是词袋模型
-
分布式表示也叫做词嵌入
-
词袋模型:Bag of Words 是最早的以词语为基本处理单元的文本向量化方法。BOW模型就是将文本看做一系列词的集合,每个词建立:位置/索引,该向量与原来文本中单词出现的顺序没有关系,而是词典中每个单词在文本中出现的频率
-
词向量模型:Word Embedding 就是采用向量来表示词,通常也被认为是词的特征向量,将来自词汇表的单词或短语映射到实数的向量。
– 它是一种基于语义的词汇表示方法
– 它的特点是将每个词汇表示成为一个固定长度向量 -
one-hot representation把每个词表示为一个长向量。这个向量的维度是词汇表大小
-
Distributed representation
-
Distributional hypothesis
-
共现矩阵 (Cocurrence matrix):通过统计一个事先指定大小的窗口内的word共现次数,以word周边的共现词的次数做为当前word的vector
-
降维:一个自然而然的解决思路是对原始词向量进行降维,从而得到一个稠密的连续词向
量 -
关键字提取技术:基于TF-IDF的方法:不再只表示词是否出现,而是表示每个词出现的重要性
-
什么是TF-IDF:TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率) 是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降
-
TF:衡量⼀个词在⽂档中出现的频繁程度,但是没有考虑到该词对文档的区分能力,这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。
-
IDF(逆向文件频率 ):是一个词语普遍重要性的度量,强调词的区分能力,即某词在很少的文件中出现,那么它的权重就大;如果一个词在大量文件中都出现,表示不清楚代表什么内容,它的权重就应该小,IDF越大,表明该词区分能力越强
-
TF-IDF:,对于搜索引擎搜集的网页来说,在使用 TF-IDF时,还需要考虑单词在网页中的位置信息
-
TextRank算法:能够从一个给定的文本中提取出该文本的关键词、关键词组,并使用抽取式的
自动文摘方法提取出该文本的关键句 -
PageRank算法是一种网页级别的算法,假定用户一开始随机地访问网页集合中的一个网页,以后跟随网页的向外链接向前浏览网页,而不回退浏览,浏览下一个网页的概率就是被浏览网页的PageRank值
-
PageRank—基本思想:根据网站的外部链接和内部链接的数量和质量来衡量网站的价值
L(v)为页面v所指向的页面个数,即v的出链集合,PR表示入链个数,引入参数d,称为阻尼因子,指通过链接点击进入该网页的概率,那么通过地址栏输入而跳转的概率就是1-d,d取值一般为0.85,这样其他途径访问占0.15;N为搜素引擎收录的页面总数 -
PageRank算法构造的网络中的边是有向无权边,而TextRank算法构 造的网络中的边是无向有权边
-
进行文档句子相似度分析可以采用词频统计及余弦相似性(Cosine Similiarity)分析,基本思想是两个句子或文档越相似,则它们的内容(文本)也越相似
-
TF-IDF计算相似性
-
余弦相似度:
-
w-shingling算法
-
Jaccard Coefficient:
-
simhash算法:通过比较两篇文档指纹的海明距离来表征文档重复或相似性
-
词语是表达语义的基本单元
-
神经网络语言模型:神经网络模型可以灵活地对上下文进行建模,这是其可构造词表示的最大优点,NNLM模型就是直接从语言模型出发,将模型最优化过程转化为求词向量表示的过程:目标函数
-
Word2Vec 是一种著名的词嵌入方法, 它可以计算每个单词在其给定语料库环境下的分布式词向量
第三章 移动互联网开发
3.1 介绍
- Android系统架构采用了软件堆层的架构,主要分为四部分:
Linux核心层
Android运行环境
应用程序框架层
应用程序层
应用程序框架层和应用程序主要是使用java编写的java应用程序
3.2 应用界面
- Android用户界面UI必须满足:界面与程序分离、自适应手机屏幕(Android系统使用XML文件对用户界面进行描述,而实现程序逻辑为Java源文件,两者是完全分离的)
- Android节目中的元素:
- 常用组件:文本显示框(TextView)、文本编辑框(EditView)、按钮(Button)、复选按钮CheckBox、单选组件RadioGroup与单选按钮RadioButton、ImageView(图像视图)、ListView
- 子视图可通过相应的布局属性,设定相对于另一个兄弟视图或父视图容器的相对位置
- Android对话框
3.3 基本组件
- Android应用程序包括:逻辑控制层与表现层
- Android应用程序由松散耦合的组件组成,并使用Manifest绑定到一起。
- 文件Manifest描述了每一个组件和他们的交互方式,还用于指定应用程序元数据、平台要求、外部库以及必须的权限。
- Android应用程序的基本结构模块(或称为安卓程序的四大组件):
Intent :是一个将要执行的操作的抽象描述 - Activity是所有程序的根本,称为活动或者视图
- 一般一个Android应用是由多个Activity组成的
- 和网页跳转不一样的是Activity之间的跳转有可能有返回值
- Activity跳转与传递参数值主要通过Intent类协助实现,在一个Activity页面中启动另一个Activity页面的运行,是最简单的Activity页面切换方式。
- 一个Android应用通常都会包含多个Activity,但只有一个Activity会作为程序的入口。
- Service类似Windows系统中Windows Service,没有用户界面,自己不能运行,只能在后台运行,且生命周期比较长的组件。
- 在Android中,广播接收器(BroadcastReceiver)是一种广泛运用的、主要用于对应用程序app的外部事件进行响应,可实现在应用程序之间传输信息的机制。
- BroadcastReceiver与Service一样没有界面,它唯一的作用是接收并响应消息。
- 内容提供(ContentProvider)是Android提供的第三方应用数据的访问方案(个人理解:相当于系统内部提供给外部程序数据的一个接口)
- Android系统是一个多任务的操作系统,可以在用手机听音乐的同时,也执行其他多个程序。每个程序有生命周期
- 一般情况下,Android系统都尽可能地不主动终止应用程序,即使其生命周期结束也能让其保存在内存中,以便再次快速启动
- Activity有四种状态:
- Activit页面间的交换数据:在Android中,主要是通过Intent对象来完成这一功能的,Intent对象就是它们之间的信使
- Fragment:
3.4 应用开发
- Android文件和本地数据库:
- Android手机中的文件有两个存储位置:内置存储空间和外部SD卡
- 支持位置服务的核心API:位置服务(Location-Based Services,LBS),Android为支持位置服务,提供了android.location包,主要有:
- 网络编程:
- Android平台的WebKit模块由Java层和WebKit库两个部分组成
3.5 移动端机器学习
- 利用ARM指令集在移动端平台进行学习需要减少模型的体积
- 移动平台深度学习框架一般不考虑训练,只考虑预测时的优化
- Tensorflow的设计目标是保证灵活性、高效性、良好的可扩展性以及可移植性。任何形式和尺寸的计算机,从智能手机到大型计算集群,都可运行Tensorflow
- TensorFlow的架构以C API为界
- TensorFlow的架构:
底层: 设备通信层
第二层:Kernel 实现层
第三层: 图计算层
第四层: API接口层
第五层: Client 层 - 专用于Android开发的软件TensorFlow Lite,在浏览器上运行的 TensorFlow.js
- TensorFlow有两种编程模式–图模式与eager execution 模式,它们具有丰富的API
- TensorFlow的核心是:Tensor(张量)
- 编程模式通常分为:命令式编程和符号式编程
3.6 补充
内容好像不太一样,这里贴上学长的总结
第四章 无线移动通信
4.1 基础和信源编码
-
所谓移动通信,就是指进行信息传递和交换的一方或双方处于运动状态中。这里的信息传递不仅指语音通话,也包括数据、图像、视频等多媒体业务
-
移动通信技术有两个基本的特点:
移动通信是无线的
移动通信的用户至少有一方处于运动状态中,这就要求移动通信网络能够对用户实现动态寻址。 -
根据传输介质的不同,可以将通信系统分为无线和有线两种
-
移动通信系统的分类:模拟信号、数字信号
-
按波长划分:长波、中波、短波、微波
-
按消息传送的方向与时间分类:
单工:通信双方只能轮流地进行收信和发信的按键通信方式(数据单向流通)
半双工:一方使用双工通信方式,而另一方则使用单工方式(双向数据流动,但只能在同一时间内的一个方向上传输数据)
双工:通信的双方收发信机均同时工作,即任意一方在发话的同时也能收到对方的话音 -
TDD: 时分双工,特别适用于IP型的数据业务
-
FDD: 频分双工
-
按调制方式分类:
基带传输 :将未经调制的信号直接传送,如音频市内电话
频带传输:对各种信号调制后传输的总称, -
通信系统的主要性能指标是有效性(传输速率)和可靠性(差错率)
-
数据传输速率:
码元传输速率,即波特率,表示在单位时间内能够传送多少个码元(一个码元可能包含多个比特)
波特率与比特率的转换:其中m表示一个码元含有多少位
奈氏准则:
-
移动通信的特点:
远近效应:离基站远,信号就弱
多普勒效应:当移动台以恒定的速率沿某一方向移动时,由于传播路程差的原因,会出现合成频率在中心频率上下偏移的现象,称为多普勒效应
电波传播存在多径衰落:可以通过减小码元传输速率来解决,比如OFDM将串行传输变为并行传输以便减小码元速率 -
信源编码:在发送端,把经过采样和量化后的模拟信号变换成数字脉冲信号的过程
-
信源编码的作用:数据压缩、将信源的模拟信号转化成数字信号,以实现模拟信号的数字化
传输、去掉信源多余的冗余信息 -
移动通信对语言编码的要求:高质量、低延时、低复杂度、低功耗
-
模拟信号转为数字信号的步骤:采样(奈奎斯特抽样定理:采样频率必须至少是被采样信号中最高频率的两倍)、量化、编码
-
信源编码的种类:波形编码(对语音波形)、参数编码(基于人的发音机制)、混合编码(波形+参数)
-
信道编码技术的目的:如何以最小的监督码元,获得最大检错和纠错能力
方法:
通过编码加入冗余度(称为监督码元),
可以检测和纠正接收信息流中的差错,提高传输可靠性 -
对于在传输过程中噪声影响产生的误差,其影响一般可采用“差错控制编码”的方法来加以纠正
-
码距:
-
主要的信道编码方式:
-
Turbo码, 又称并行级联卷积码(PCCC),巧妙地将卷积码和随机交织器结合在一起, 实现 了随机编码的思想
4.2 调制和接入
-
调制:调制是指用待传输的信号控制另外一个便于传输的载波信号的某一个参数的变化,以便达到传输信号的目的
-
解调:解调是从携带消息的已调信号中恢复消息的过程,是调制的逆过程。
-
模拟调制:幅度调制(AM)、频率调制(FM)和相位调制(PM)
-
数字调制:幅移键控(Amplitude Shift Keying,ASK)、移频键控(Frequency Shift Keying,FSK、移相键控(Phase Shift Keying,PSK)、正交幅度调制法(QAM);注:M进制的数字调制,在调制方法前加上M即可,如MASK,MFSK,一般认为在阶数M≥8时为高阶调制
-
各种调制之间的差别都反映在同相分量I(t)和正交分量Q(t)上(基带信号)
-
二进制振幅键控(2ASK):振幅键控是利用载波的幅度变化来传递数字信息的,其频率和初始相位保持不变
-
二进制频移键控(2FSK):频移键控是利用载波的频率变化来传递数字信息的
-
二进制相移键控(2PSK):相移键控是利用载波的相位变化来传递数字信息,而振幅和频率保持不变
-
QPSK—正交四相移相键控:星座图可以比较地直观表达各种调制方式。星座图中的点,可以指示调制信号幅度和相位的可能状态
-
多址技术:又称多址连接技术
-
频道、时隙和码型是多址连接信道的三种主要形式。
-
数字移动通信的信道:
模拟蜂窝:频分多址
数字蜂窝:如利用频分和时分的优点形成基于时分多址的系统;
将频分与码分相结合,形成基于码分多址的系统 -
常见的多址技术
FDMA:不同的用户分配在频率不同的信道上
TDMA:不同的信号被分配到不同时隙里
CDMA:码分多址技术
SDMA:空分多址技术 -
CDMA:所谓码分,就是在发送端每一个用户信号被分配一个自相关性大而互相关性小的伪随机二进制序列进行扩频,这个伪随机二进制序列就被称为地址码(即PN码),地址码之间具有相互准正交性,不同用户的信号能量被分配到不同的伪随机扩频序列里,在信道中许多用户的宽带信号相互叠加在一起同时进行宽带传输
-
对于扩频码与地址码的要求:良好的伪随机性能和相关性能
-
在CDMA系统中,三种序列分别是长码、短码和Walsh码。
-
4G:下行:OFDMA; 上行:SC-FDMA
-
5G: F-OFDM, SCMA
4.3 4G-5G
- 4G是一种宽带接入和分布式的全IP构架网络,是集成多功能的宽带移动通信系统
- 4G的基本特征:
很高的传输速率和大范围覆盖
丰富的业务和QoS保证
开放而融合的平台
高度智能化的网络
高度可靠的鉴权及安全机制 - LTE采用扁平化的系统结构,具体表现为
- 随着无线数据速率的不断提高,无线通信系统的性能不仅仅受到噪声的限制,更主要受制于无线信道时延扩展所带来的码间串扰
- 为了传输高速数据业务,必须采用措施消除码间串扰。
- OFDM的出发点是将高速的数据流分解为多路并行的低速数据流,在多个载波上同时进行传输
- OFDM(正交频分复用Orthogonal Frequency-Division Multiplexing)
- 多载波传输是将高速串行的数据码流转换为N路并行的低速数据码流,然后调制到等频率间隔的N个相互正交的子载波上同时进行传输
– 每个用户可以同时利用多个载波进行发送和接收数 - 单载波传输:每个用户在任何时候都利用单一载波进行发送和接收数据
- OFDM可以看做是一种特殊的多载波通信方案 ,核心技术是:多载波的正交性
- 传统的频分复用/频分多址(FDM/FDMA)技术将较宽的频带分成若干较窄的子载波进行并行发送,各个子载波的频谱是互不重叠的。
- 现代OFDM系统为了提高频谱利用率,使各子载波上的频谱相互重叠,但是为了避免子载波之间的干扰,这些频谱在整个符号周期内满足正交性,有效地减少了载波间的保护间隔,从而也保证了接收端能够不失真地复原信号
- OFDM系统中,需要考虑两种类型的干扰:符号间干扰ISI、载波间干扰ICI
- 保护间隔(Guard Interval):
- 使用空闲保护间隔,由于多径传播造成子载波间的正交性破坏。为此可以将每个OFDM符号的后TCP时间中的样点复制到OFDM符号的前面,形成循环前缀
- OFDM符号需要在其保护间隔内填入循环前缀信号(长度为保护间隔的长度)
- OFDM技术的缺点:存在较高的峰值平均功率比
- 多天线技术通过在发送端和接收端同时使用多根天线,扩展了空间域
- 多天线构成的信道称为MIMO(Multiple Input Multiple Output)信道
- 系统利用各发送接收天线间的通道响应的独立性.通过空时编码创造出多个并行的传输空间
- LTE系统中,如果所有空分复用(SDM)数据流都用于一个UE,则称为SU-MIMO(单用户多入多出),如果将多个SDM数据流用于多个UE,则称为MU-MIMO(多用户多入多出)
- MIMO系统中,信道容量随着天线数的增加而线性增大
- MIMO技术优势明显,但对频率选择性衰落无能为力
- LTE最终采用了统一的多址技术——上行使用SC-FDMA,下行使用OFDMA
- 以OFDM技术为基础,通过为用户分配不同的子载波来区分用户的多址方式就称为OFDMA
- LTE中,1ms作为LTE的一个调度时间单位,称为一个TTI(transmission time-interval)
- OFDM symbol是时域上最小范围
- OFDMA:
- LTE的空中接口资源分配的基本单位是物理资源块(Physical RB,PRB)
- 带宽的动态配置是通过调整资源块RB数目的多少来完成
- LTE上行多址接入方案为SC-FDMA,因为OFDMA峰均比高,在上行使用会增加终端的功放成本和终端功耗。
- SC-FDMA(Single Carrier Frequency Division Multiple Access,单载波频分多址)兼有单载波传输技术峰均比低和频分多址技术频谱利用率高的优点。
- 4G的两种关键技术OFDM和MIMO
- LTE是一种长期演进技术
- LTE-A比LTE拓展出的技术
载波聚合技术
增强的MIMO技术
协作多点传输技术 - 5G不再只是从2G到3G再到4G的网络传输速率的提升,而是将“人-人”之间的通信扩展到“人-网-物”
- 5G关键技术:提高速率技术 、降低时延技术 、提升覆盖技术
- 大规模天线技术(即Large scale MIMO,亦称为Massive MIMO)优点:天线的数量多、信号覆盖的维度广
- Massive MIMO容量增益来自于多用户复用时频资源,基站选择多个用户并发调度,通过空分复用,提升频率效率和小区容量,多天线实现多流数据发送,通过更多数量的天线,可以实现更灵活精确的三维立体窄波束赋形
- 64T64R的Massive MIMO将是主要宏站解决方案、全球主流选择
- QAM是正交振幅调制,正交调幅信号有两个相同频率的载波,但是相位相差90度。一个信号叫I信号,另一个信号叫Q信号。从数学角度将一个信号表示成正弦,另一个表示成余弦
- 星座图: MPSK的星座图可以看作所有的信号点分布在同一圆周上,圆周信号的半径等于信号幅度
- 提高速率技术—— F-OFDM:F-OFDM将5G的频谱利用率提升到**95%**以上
- 非正交多址接入技术NOMA:NOMA在OFDM的基础上增加了一个维度——功率域,将功率域由单用户独占改为由多用户共享;根据信息论,正交多址系统可达容量次优,采用该方法可使无线接入宏蜂窝的总吞吐量提高50%左右
- 功率复用技术:基站在发送端会对不同的用户分配不同的信号功率
- 提高速率技术——信道编码技术:
- 采用极化码作为5G-eMBB场景控制信道编码方案
- 低密度奇偶校验码(Low Density Perity Check Code,LDPC)成为5G-eMBB场景数据信道的编码方案
4.4 (4G-5G内容合为4.3)
4.5 短距离无线通信-wifi
-
低功耗、微型化是用户对当前无线通信产品尤其是便携产品的强烈追求,作为无线通信技术一个重要分支的短距离无线通信技术正逐渐引起人们越来越广泛的关注
-
短距离无线通信主要工作在高频段
-
IEEE802无线标准系列
-
WiFi又称IEEE802.11b标准,最早是基于IEEE802.11协议
-
跳频扩频 (Frequency Hopping Spread Spectrum,简称FHSS):就是载波可以在一个很宽的频带上按照伪随机码的定义从一个频率跳变到另一个频率,使用FHSS技术,2.4G频道被划分成75个1MHz的子频道,接受方和发送方协商一个调频的模式,数据则按照这个序列在各个子频道上进行传送
-
直接序列扩频 (Direct Sequence Spread Spectrum,简称DSSS):使用具有高码率的扩频序列
-
802.11中的RF传输标准是:FHSS, DSSS
-
802.11b:使用2.4GHz频段,直接序列扩频,传输速率达11Mbps
-
2.4G频段中,相邻的信道间有重叠,尽量不要同时使用,以免造成干扰。同一个信号覆盖范围内最多能容纳3个互不重叠的信道(1,6,11),以此类推
-
11b采用DSSS直接扩频
-
11g采用OFDM的扩频方式
-
2.4GHz频段由于使用ISM频段,干扰较多。目前很多WiFi设备开始使用5.8GHz附近的频带
-
WIFI使用的频段:2.4GHz、5.8GHz
-
CSMA协议是在发送之前进行载波监听,由于传播时延的存在,冲突还是不可避免的
-
CSMA/CD(用于总线式以太网)比CSMA又增加了一个功能, “边说边听”,CSMA/CD是IEEE 802.3的以太网采用协议,基于任一站的发送都能被所有站点听到这样一个事实
-
隐藏节点(Hidden Node)或隐藏终端(Hidden Terminal):
-
暴露节点(Exposed Node):
-
CSMA/CA 协议:碰撞避免(Collision Avoidance),802.11 就使用 CSMA/CA 协议。而在使用 CSMA/CA 的同时,还增加使用停止等待协议。
-
在IEEE802.11 中媒体接入控制方式有PCF 和DCF 两种方式。其中DCF方式是基本访问控制方式
-
DCF(分布式协调功能):通过CSMA/CA和随机退避时间来完成接入,控制共享媒介
-
DCF 在所有的终端中实现。
-
点协调功能PCF(Point Coordination Function):PCF 子层使用集中控制的接入算法将发送数据权轮流交给各个站从而避免了碰撞的产生
-
CSMA/CA基本原理:
-
所有的站在完成发送后,必须再等待一段很短的时间(继续监听)才能发送下一帧。这段时间的通称是帧间间隔IFS (Inter-Frame Space)
-
用不同的帧间隔来定义优先级:高优先级帧需要等待的时间较短,因此可优先获得发送权,低优先级帧等待的时间较长
-
帧间隔类型
SIFS最高优先级
PIFS中等优先级
DIFS最低优先级
-
退避(backoff)过程: 信道从忙态变为空闲时,任何一个站要发送数据帧时,不仅都必须等待一个IFS 的间隔,而且还要进入竞争窗口,并计算随机退避时间以便再次重新试图接入到信道
-
使用CSMA/CA的基本DCF:如果介质持续为空的时间大于DIFS,则节点可以立即访问介质,如果介质为忙,则等待一段随机时间
-
802.11MAC 中的载波侦听有两种方式
物理载波侦听,由物理层提供
虚拟载波监听(Virtual Carrier Sense),由MAC层提供, -
带有RTS/CTS的扩展DCF:发送站发送短控制帧RTS,RTS中包含目的地址和数据发送的持续时间;–接收站发送短控制帧CTS
-
当一个站检测到正在信道中传送的 MAC 帧首部的“持续时间”字段时,就调整自己的网络分配向量 NAV (Network Allocation Vector)。
4.6 移动自组织网络
- 无线自组织网络是一种特殊的无线移动网络:
一般由一组具有自主能力的无线终端相互协作形成的一种独立于固定基础设施、采用分布式管理的多跳网络
网络中所有节点的地位都是平等的
节点间可通过空中接口直接通信,且具有分组转发能力。 - Ad Hoc网络的定义:
- DV算法:每个节点都维护一张路由表
- DV算法不能直接用于Ad Hoc网络,解决办法:水平分割,当一个节点把路由更新发送给相邻节
点时,它并不把从这个相邻节点处学到的路由再回送给该节点 - DSDV协议:路由信息必须周期性的更新
- DSDV路由表:节点周期在DSDV协议中,每个节点的路由表包括4部分:目的节点,下一跳节点,度量值(距离值)和目的节点的序列号
- 当从某一个邻节点来的路由是有效,这代表这这条路由中的所有链路都正常工作,目的节点的序列号将保持为一个偶数。(异常则为奇数)
- DSDV路由公告:设置序列号信息的规则:每次公告增加自己的目的地序列号(只使用偶数值),如果一个节点不再可达(timeout),则将该节点的序列号加1(奇数序列号),并且设置metric为∞
- DSDV路由选择:将更新信息与自己的路由表比较:选择具有更大目的地序列号的路由
- DSR路由发现:路由应答 :源节点收到RREP后在本地路由缓存中缓存路由信息
第五章 移动互联网安全介绍
- 移动互联网发展特征:网络“ALL-IP”、终端“智能化”、宽带“百/千兆”
- 权限机制工作原理:
– 应用程序对Android系统资源的访问需要有相应的访问权限。
Android系统为每一个应用设置独立的UID
应用的UID在应用安装时确定 - 权限的使用:< permission>标签
- 权限保护等级:
normal
dangerous
signature
signatureOrSystem - 规定APK文件必须被开发者进行数字签名,以便标识应用程序作者和应用程序之间的信任关系
- 沙箱(sandbox)为运行中的程序提供隔离环境
- 在AndroidManifest.xml中利用sharedUserId属性给不同的package分配相同的userID
- Android应用存在很多安全问题,例如下面的典型安全性问题:
隐私窃取
应用重打包
组件暴露
界面劫持 - 新型隐私信息:窃取应用程序内部的用户数据以及通过侧信道攻击技术获取一些敏感数据
10.侧信道攻击方法主要集中在功耗攻击、电磁场攻击和时间攻击。其中功耗攻击是最强有力的手段之一 - 界面劫持,顾名思义就是正常应用的界面被恶意攻击者劫持
- 而界面劫持攻击所仿冒的页面绝对属于“高仿”级别,唯一的区别可能就是页面后台用户输入数据的发送方向是恶意攻击者的邮箱,而非真正的金融服务端。
- 浏览器的核心部分是“Rendering Engine”,即“渲染引擎
- 点击劫持是一种视觉上的欺骗手段,使用透明的iframe覆盖优势用户进行操作
- 界面劫持就是正常应用的界面被恶意攻击者劫持
- 浏览器设计中使用的最重要的一个安全策略叫做同源策略 SOP
- 若地址里面的协议、域名和端口号均相同则属于同源
- SQL注入就是把SQL命令插入到Web表单2然后提交到所在页面请求,从而达到欺骗服务器执行恶意的SQL命令
- SQL注入可以分为:平台层注入和代码注入