仅为学习,仅为学习,仅为学习
在学习爬虫期间,有讲到去爬取http://scxk.nmpa.gov.cn:81/xk内容,但是由于最新的改版,已经很难了,添加了加密的过程,导致一直爬取不到数据,如
http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?hKHnQfLv=5RzcDnoZGWKeUOstQcpwLAZnI_YXd8U22RSxBylWTxaaJuoHxQ0mZT6eNeV4UWLZZ84VMQtGsFW0JXDkNYFzgx.1MTLPtQBTJTdOZmeia2NI75DSDRiktWm8GAKT6Vaz.LXqMyVvCOA0ZZ_0zXI8rxeBogx.FmWMyY05UnRA0Abi.5_CjmuHNwijNpLGdIyev6v1RcpGINeBb8E4H8gLr6byITdTxVyOMG70lC2zjbNMyHEifKtrFD2WFTwzlSl8YzNazLbgHyYpMDF4AUSVvc6JzifOaWzZiIuQUN9yxUG3&8X7Yi61c=4gJZWYBU.vueIqDtVqOZBVV2kDTLKhwQoWmd1Tyr8i9R4wg1LtILP.stGr7zOvspClrkmY2hU09XQa1ka9SlDR7Z6DCMHfDW1sx1ih_UCwkZuSoCErd.Pn57QXV5fs5rM
由于添加了hKHnQfLv、8X7Yi61c参数,而这两个参数无法进行破解(没有找到方法,貌似是jquery.myPagination.js和portal.js这两个文件搞得鬼),所以放弃直接破解接口,转而使用selenium,selenium模拟进行浏览器请求(还是有几率被拦截