最近公司管理层有个新想法,想利用百度,GOOGLE等网站的海量信息,做一个我们自己的行业搜索网站,做为公司的一个新频道,也可以说一个特色服务;第二天交个思路(上面的流程图),数据库方面的内容,需要的可以在第四步骤之后写到库;以前有过网络编程的简单知识和正则基础,所以基本没有问题.考虑到性能问题,要用到多线程编程,这方面只有一点点了解,老板就让我把这点研究一下.之后确定一个开发进度和任务安排.今天看了多线程的文章,很不错,发给大家看看:C#.net多线程编程教学(1): 线程同步多任务和多线程
流程图解说:
开发工作
:
a.百度数据分析模块
b.业务处理模块
c.表示层模块
d.数据库设计
详细说明
:
a. 【百度数据分析模块】主要工作
1.
百度新闻列表页分析
2.
制定新闻列表页正则
b. 【业务处理模块】主要工作
1.根据组合URL,获取HTML数据
2.处理HTML数据,由正则提取有用信息(如标题,链接,摘要,时间等等)
3.结构化提取信息(记录到模拟数据库和SQLSERVER),显示给用户
4.
多线程编程
,
性能测试
,
功能测试
c. 【表示层模块】主要工作
1.友好提示效果
2.AJAX无刷新提交
d. 【数据库设计】主要工作
1. 新闻表
编号
|
标题
|
标题链接
|
来源
|
摘要
|
日期
|
图片新闻
|
图片
|
分类
|
百度标题是加粗的
,
获取时加粗的处理
2. 词条表
编号
|
词条关键值
|
词条
|
词条关键值点击量
|
词条点击量
|
日期
|
..
|
3.分类表(一分类对应一正则)