由于药监局数据查询网站有防抓取机制,普通的模拟请求已经无法正常采集到数据
只能采用webbrowser 模拟点击进行采集,效率还行 ,但是由于有些分类数据量庞大,单机采集需要很长时间,要加快速度还需多加些机子
javascript:commitForECMA(callbackC,"content.jsp?tableId=25&tableName=TABLE25&tableView=国产药品&Id=120532",null)
直接用webbrowser模拟执行这个js就行了,穷举id就行了,从0开始
这个是我单机采集效率截图,点击出数据的成功率在90%以上,偶尔有超时
最终采集结果