网站行业搜索,数据源来自于互联网

原创 2007年10月10日 14:55:00

 流程图

最近公司管理层有个新想法,想利用百度,GOOGLE等网站的海量信息,做一个我们自己的行业搜索网站,做为公司的一个新频道,也可以说一个特色服务;第二天交个思路(上面的流程图),数据库方面的内容,需要的可以在第四步骤之后写到库;以前有过网络编程的简单知识和正则基础,所以基本没有问题.考虑到性能问题,要用到多线程编程,这方面只有一点点了解,老板就让我把这点研究一下.之后确定一个开发进度和任务安排.今天看了多线程的文章,很不错,发给大家看看:C#.net多线程编程教学(1): 线程同步多任务和多线程

流程图解说:

开发工作:
      a.百度数据分析模块
        b.业务处理模块
        c.表示层模块
        d.数据库设计
 详细说明:
a.      【百度数据分析模块】主要工作
1.百度新闻列表页分析
2.制定新闻列表页正则
b.      【业务处理模块】主要工作
1.根据组合URL,获取HTML数据
2.处理HTML数据,由正则提取有用信息(如标题,链接,摘要,时间等等)
3.结构化提取信息(记录到模拟数据库和SQLSERVER),显示给用户
4.多线程编程,性能测试,功能测试
c.       【表示层模块】主要工作
1.友好提示效果
2.AJAX无刷新提交
d.      【数据库设计】主要工作
1.       新闻表

编号
标题
标题链接
来源
摘要
日期
图片新闻
图片
分类
                                          百度标题是加粗的,获取时加粗的处理
2.       词条表

编号
词条关键值
词条
词条关键值点击量
词条点击量
日期
..

3.分类表(一分类对应一正则)

传统软件行业和互联网行业有什么区别?

本人在传统行业工作有十余年了,曾任职于某国内知名软件公司任设计师职务。现卖身于某知名电商公司做研发工作。最近总有朋友和同事问我这两个行业到底有什么区别?细思量,还是有不小的差别的,就在这里盘点一下,算...
  • kingmaxno1
  • kingmaxno1
  • 2015年11月05日 13:43
  • 8445

潜谈IT从业人员在传统IT和互联网之间的择业问题(下)-互联网公司

互联网带来的一片晴天相对于传统行业来说,互联网行业要显得相对对技术人员尊重些。在网联网行业中,采用的技术、概念也较传统形行业来说要新,技术人员也容易在此找到自己的一方净土。因为互联网这个行当讲究的快速...
  • lifetragedy
  • lifetragedy
  • 2016年04月18日 00:12
  • 14104

互联网企业与传统企业思维的本质区别

随着互联网浪潮的汹涌来袭,传统企业生出了浓浓的危机感。   面对互联网,他们总有一种快被时代抛弃的感觉。孕育于互联网浪潮中的互联网企业,表面上虽然显出一派繁荣之景,然而在残酷的现实面前,他们分分...
  • romantichjwhjwhjw
  • romantichjwhjwhjw
  • 2015年01月17日 03:40
  • 1748

[有何不同] 2017年互联网公司应届生薪资盘点

2017年互联网公司应届生薪资盘点,有何不同,一句话概括为: 薪资比往年更高了。下面内容将细细道来......       据教育数据咨询与评估机构麦可思研究院日前发布的《2016中国大学生...
  • BtB5e6Nsu1g511Eg5XEg
  • BtB5e6Nsu1g511Eg5XEg
  • 2017年10月21日 00:00
  • 991

Hadoop十大应用领域--从互联网行业到传统行业

本文整理自:http://gigaom2.wordpress.com/2012/06/05/10-ways-companies-are-using-hadoop-to-do-more-than-ser...
  • zhoudaxia
  • zhoudaxia
  • 2013年05月02日 20:48
  • 6038

2017互联网寒冬程序员求职随感

前言感谢blink_dagger的投稿,他的博客链接: http://www.jianshu.com/u/d59610d5afe7 目前情况:16届某野鸡大学本科生,实际接触Android年限一...
  • u010321471
  • u010321471
  • 2017年11月22日 00:12
  • 840

互联网公司面试被拒的真正原因

1.坑你发自真心 原来一个下属小A这些日子准备跳槽,于是开启了休息日和请假去面试的旅程,不过并不顺利,他向我吐槽有一半以上都是问了他方案或者他回去熬夜写了方案发过去就没反应了。问我是不是自己不够...
  • kl28978113
  • kl28978113
  • 2017年12月19日 10:38
  • 141

什么是工程师文化?各位工程师是为什么活的?作为一个IT或互联网公司为什么要工程师文化?

为什么要工程师文化? 看看最近二十年来社会的发展,计算机和互联网已经渗透到了这个社会的每一个角落,各式各样的计算机技术成为了整个世界发展的强大引擎,各式各样的创新,无论是业务创新还是技术创新,都是依托...
  • littlesmallless
  • littlesmallless
  • 2017年03月01日 22:19
  • 376

如何巧用工具实现百亿级互联网数据快速清洗?| 公开课

分享背景▼当下,大数据已然成为了重要的战略资源,市场规模高速增长,市场发展潜力巨大。在线社交媒体,通过数据洞察用户喜喜好,精准匹配内容与广告;金融巨鳄,从大量的数据中获得深层信息,时刻预测行业走势;电...
  • Y0W1as5eg37urFdS
  • Y0W1as5eg37urFdS
  • 2017年12月26日 00:00
  • 43

互联网企业盈利模式全分析

一、搜索引擎的盈利模式 互联网上的信息不断以几何指数的方式增长,而互联网处理信息的核心就是搜索引擎。 国内最大的搜索引擎是百度,它主要靠竞价排名服务盈利。百度的两个主要收入来源就是竞价排名...
  • yongcai1
  • yongcai1
  • 2013年02月17日 18:23
  • 1264
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章: 网站行业搜索,数据源来自于互联网
举报原因:
原因补充:

(最多只允许输入30个字)