从web抓取数据的一点经验教训

昨天做了一个从web上抓取相应成语拼音的小程序,从上午不到十一点开始写,写到下午四点才初见端倪,真是很惭愧。

这个工作本身的意义并不是很大,但是从中获取的经验教训还是很有意义的。以前总是想找个地方去记下来这些琐碎的东西,由于再三,最后决定先把东西都放在这里吧。

 

先描述一下这个工作的主要目的:目前有一个.txt格式的文本,每行的格式如下:

                        成语 空格 拼音

我通过将成语作为参数post到查询页面上获取正确的拼音与原来的进行校对。

 

当然,网上的词典也有可能出现错误,有很多需要改进的地方。

 

现在总结一下经验教训吧。

首先,我越发认为做东西要足够快才能显出优势,11-16是个很漫长的过程。这么久的时间都在编码么?不可能。编代码的时间永远都是很少的时间。但是,它也可能很多。如果编码没有很好的习惯,有诸多的不规范,就很可能产生巨大的debug以及重构的时间,这写都应当统统计算到编码过程中的。快速,本身就包含的准确的要求,不准确总是要用更多的时间去弥补的。这段的关键词可以是 编码 快速 准确 

下面就是具体的工作中的问题了。

  • html的分析永远是个必需品,用到的频率很大,不要每次都临时抱佛脚 耗时
  • 中文是个很讨厌的东西,unicode gbk iso8859-1非常讨厌,细细观察 耗时
  • 程序需要对外接口,要想让你的东西可以让别人用,就必须要提供接口,可是这个工作很讨厌,我不喜欢,但要做的时候还是很多的 耗时 但是可选
  • 善用利器可以打打减少时间的浪费,感谢fire-bug,感谢chrome的html‘审查元素’

编码的高速永远是我追求的目标,但快永远包含质量,不可动摇。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值