2007年百度程序设计大赛Astar初赛题目（第二场）

最新推荐文章于 2024-04-30 20:25:45 发布

iteye_12837

最新推荐文章于 2024-04-30 20:25:45 发布

阅读量135

点赞数

文章标签：测试

1.百度时间

Baidu的服务器上使用的不是北京时间，而是Baidu时间。Baidu时间的时分秒与北京时间相同，但是日期与北京时间不同，是用一个正整数表示从2000年1月1日开始经过了几天。

现在就请大家设计一个程序将北京时间转换为百度时间。在本题中，闰年的年份是400的倍数，或者是4的倍数但不是100的倍数。比如2000和8888均为闰年，但6100不是。

输入格式

输入数据的每一行为一个待转化的北京时间（不含空格和TAB），正确的格式包括两种：

一种为：YYYY-MM-DD，（YYYY表示四位数年份，MM为两位月份，DD为两位日期）；

另一种为：MMYY，（YYYY表示四位数年份，MM为两位月份，DD为两位日期）；

输出格式

每个数据输出一行。如果可以成功转换，输出一个正整数，否则输出Error。

输入样例例

2000-01-01

AStar2007

05/26/2007

输出样例例

Error

2702

评分规则

程序将运行在一台Linux机器上（内存使用不作严格限制），在每一测试用例上运行不能超过1秒，否则该用例不得分；

要求程序能按照输入样例的格式读取标准输入数据，按照输出样例的格式将运行结果输出到标准输出上。如果不能正确读入数据和输出数据，该题将不得分；

该题共有5个测试数据集，数据1和数据2中的所有日期均能成功转换。所有数据中，每行不超过20个字符，每组数据最多包含100行；

该题目20分。

2.实习生小胖的百度网页过滤器

百度网页采集器(Baiduspider)每天从互联网收录数亿网页，互联网的网页质量参差不齐。百度的工程师们每天都在改进方法来判断一个网页质量的好坏，使质量差的网页出现在检索结果中较后的位置。现在实习生小胖想到一个很简单的方法来判断一个网页内容的好坏，方法如下：

1. 利用数据挖掘技术在互联网语料库中挖掘出一批有特点的词汇，分为好词和坏词两种，好词标上正的权重，坏词标上负的权重；

2. 通过好词和坏词词典对每个网页计算网页总权重：从第一个字开始匹配，找到一个好词则加上相应的权重，找到一个坏词则减去相应的权重，下一次匹配将从找到的词末尾的下一个位置开始。

3. 坏词采用正向最短匹配：从当前匹配位置开始的若干连续汉字，如果形成多个坏词，则只计算最短的那个坏词的权重，下一次匹配将从这个最短坏词末尾的下一个位置开始。

4. 好词采取正向最长匹配：从当前匹配位置开始的若干连续汉字，如果形成多个“有效”好词，则只计算最长“有效”好词的权重，下一次匹配从这个最长“有效”好词末尾的下一个位置开始。

5. “无效”好词的定义：好词的一部分本身是一个坏词；或者好词的一部分与后续相邻的若干字组成一个坏词。

现在小胖已经做好了第1步的工作，有一个好词和坏词的列表（词典），但是由于没有对中文文本处理的程序经验，他想请未来的百度之星们帮他完成这个程序。

输入格式

输入第一行为一个字符串（网页正文）。从第二行开始为词典，格式为“词空格词的权重”。权重为一个带符号32位整数。如果权重为正，则为好词，反之则为坏词；不存在重复的词，不存在权重为0的词。

作为“网页”的字符串中同时包含中文和ASCII字符，每个汉字占2个字节。并非“网页”中的所有字都在词典中。

输出格式

输出仅一行，为网页总权重（答案保证不超过带符号32位整数的范围）。

样例输入例

小胖之喷火龙骑士!!

小胖 6

喷火 -1

喷火龙 -1

火龙 -1

龙 4

龙骑 3

龙骑士 2

骑士 -2

士 3

样例输出例

样例解释

从“网页”中找到的好词为“小胖”和“龙”，坏词为“喷火”和“骑士”。特别要说明一下“龙”被识别为好词的原因——“喷火”和“喷火龙”均为坏词，按正向最短匹配得到“喷火”，接着往下匹配到好词“龙”、“龙骑”和“龙骑士”，但是由于“骑士”是坏词，所以“龙骑”、“龙骑士”无效而“龙”是最长的有效好词。注意题目描述中的匹配规则，好词的“有效”和“无效”只考虑该好词的一部分与后续字是否能够组成坏词，而不考虑和前面的字是否能够组成坏词——样例中的“龙”虽然可以与前面的字组成坏词“喷火龙”和“火龙”，但由于这两个词都是未能匹配成功的坏词，因此对好词“龙”的词性没有影响，可以累积“龙”的权重。

注意事项

输入数据的中文采用GBK编码。

GBK：是又一个汉字编码标准，全称《汉字内码扩展规范》。采用双字节表示，总体编码范围为 8140-FEFE，首字节在 81-FE 之间，尾字节在 40-FE 之间，排除xx7F。总计 23940 个码位，共收入 21886 个汉字和图形符号，其中汉字（包括部首和构件）21003 个，图形符号 883 个。

评分规则

程序将运行在一台Linux机器上（内存使用不作严格限制），在每一测试用例上运行不能超过1秒，否则该用例不得分；

该题共有10个测试数据集，前7组数据的大小不超过1K字节，数据8和数据9不超过600K字节，数据10的网页正文不超过1M字节。所有数据的词典不超过50,000项，且词典中的词保证由1到5个汉字组成。词典不包含重复的单词；

该题目20分。

iteye_12837

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2007年百度程序设计大赛Astar初赛题目（第二场）

1.百度时间 Baidu的服务器上使用的不是北京时间，而是Baidu时间。Baidu时间的时分秒与北京时间相同，但是日期与北京时间不同，是用一个正整数表示从2000年1月1日开始经过了几天。现在就请大家设计一个程序将北京时间转换为百度时间。在本题中，闰年的年份是400的倍数，或者是4的倍数但不是100的倍数。比如2000和8888均为闰年，但6100不是。输入格式输入数...
复制链接

扫一扫