《信息采集》
一:什么是信息采集
信息采集就是通过各种途径对相关信息进行搜索、归纳、整理并最终形成所需有效信息的过程。各种途径包括:一是通过实地调查、采访、亲身经历、亲眼目睹获得的第一手资料,也就是直接信息。二是通过某种介质间接获得的信息。如通过书刊、报纸、电视、电脑获得的各种信息。目前由于各种条件的局限性,以及网络技术的发达、便捷,我们进行信息采集的主要途径来自于网络,主要工具就是计算机。有效信息就是对我们切实有用的信息,不是随便一条信息对我们都是有用的。一般来说我们需要的信息往往具备这样几个属性:即信息的综合性、准确性和时效性。
二:信息采集的重要性(意义)
信息采集是新形势下经济信息工作的客观要求。现在是信息社会,所有从事信息工作的单位、部门、甚至个人,对信息的需求越来越多,依赖性也越来越大,信息采集已成为获得有效信息的必要过程。
三、要采集什么样的信息
简单我我总结为:有价值,权威性,和时效性。
-序言
这里我简单介绍的是 “”file_get_contents“”--php采集方式
一:文件操作
对文件里面的内容进行读写
PHP5文件操作
将文件的内容整个进行读取和写入
读取文件
file_get_contents:从一个指定的文件内读取数据内容。将整个文件读入一个字符串; 一个参数,文件名
写入内容
file_put_contents:将指定的字符串写入到对应的文件 ,将一个字符串写入到文件里 两个参数 第一个是文 件名,第二个是要写入的字符串
执行一次就是操作一次。返回的是内容数量
注意:file_put_contents如果要写入的文件不存在,系统会自动创建,有的话就直接写入
默认的file_put_contents写入数据的时候,会先清空数据再写入
如果要在文件后面追加内容:应该使用file_put_contents的第三个参数
FILE_USE_INCLUDE_PATH:先清空文件,再重新写入(默认的)
FILE_APPEND:追加数据到文件末尾
PHP4文件操作
php5以前文件的操作,与文件夹一样,都是通过资源的形式进行操作
1. 获取文件资源
fopen:打开一个文件资源
如果是通过资源形式去操作文件的话,那么必须在打开文件的时候,就指定操作模式。
只读模式打开
1. 读取文件内容
fgets:s代表string,代表可以读取多个字符,取决于指定的读取长度或者是否碰到换行(最多只能读取一行数据)
两个函数都是对当前资源指针进行操作,读取之后都会将指针下移
fgetc : c 代表char ,代表每次读取一个字符
fread:获取指定长度的数据直到文件结束
2. 修改文件(写)
fwrite:向文件资源指针所在的位置写入数据,写东西不会将当前位置已有的东西往后移,而是会覆盖
fputs:fwrite别名
3. 释放资源
fclose:使用对应的文件资源
5. 文件操作相关函数
unlink:删除文件
rename:重命名文件
filemtime:m代表modify,文件最后被修改的时间 获得的是时间戳
filesize:文件大小(字节)
二、采集
1、采集思路
从要采集的页面中获取内容--》通过正则匹配要获取的信息--》把数据进行入库操作
注意:文件编码 转码函数iconv()
mb_convert_encoding()(必须先在php.ini中开启mb_string.dll扩展)
一、正则表达式
正则表达式的书写
三、数据采集的三种方式
1、file_get_contents();
2、Curl函数
3、Snoopy类
举个栗子~