- 博客(4)
- 资源 (4)
- 收藏
- 关注
原创 再续抓数据经验谈--找到数据来源的方法
说一些小技巧,分享给需要在互联网上,找数据,然后接收的。 往往一个网页上面呈现的内容,来源有很多个,浏览器会根据脚本的调用,访问很多个服务器地址,所以我们要抓取数据,最好知道数据的源头, 直接从源头获取再进行解析。 比如我用的chrome浏览器,火狐也更好。 1.右击页面,从菜单中选择“审查元素”; 2.选择Network,功能栏,然后再F5,就可以看到整个页面内容的数据来源。 3.可以
2013-01-10 11:36:08 891
原创 互联网数据ETL-实用攻略
提取 1.数据获取方式:post和get 2.登陆,获取访问权限 3.解析get方式的链接地址的内容,从网页中找到链接地址参数,并确定参数的定义域和含义功能 4.获取网页数据,简单处理 5.根据所要捕获内容进行方法选取:正则表达式截取指定格式部分;变量解析; 6.存储捕获数据,按照设计好的数据结构存储到缓存数据库或文件中。 转换 1.格式标准化,比如时间,姓名,年龄,邮箱,
2012-09-19 09:51:29 254
原创 .net抓取数据C#和PHP的结合(续)
摘要:运用php对网页内容获取便利专业的特点,采用php站点访问目标站点,获取数据后,把变量输出为json格式。再通过C#访问php站点获得json格式文件,进行解析,入库。 示例: 将要截取的table部分通过php解析,并生成json格式字符串;(代码1) C#程序获取网页字符串,并解析json内容,使用SQLHelper,可以到我的资源那里下载使用,入库。 代码:
2012-09-06 11:00:50 564
原创 浅谈正则表达式在.net的运用-C#程序抓取网页信息
引:在计算机科学中,是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多文本编辑器或其他工具里,正则表达式通常被用来检索和/或替换那些符合某个模式的文本内容。许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。正则表达式通常缩写成“regex
2012-09-05 15:20:21 418
表达式求值 栈实现 c++ 支持加减乘除运算
2011-04-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人