1. 添加user-agent,header。避免一开始就被屏蔽掉。推荐用urllib2,requests(最近才用这个,发现很好用)
2. 编码用utf-8,本地存储的时候用codes.open 来保存中文字符
3. lxml解析的速度要比beautifulsoup快的多
4. 如果beautiful和lxml都不能抓到你想要的网页内容,就的用最原始的方法---正则表达式,所以玩爬虫,正则表达式基础要好。
5.抓到返回内容如果和正常页面不符,看看是不是跳转了
6. 爬js 动态页面 用 抓包获取 提交的数据,然后post返回json格式,最好不用seliumn,卡卡卡呀
到最终,熟练了,就是 抓包,分析内容,提取内容,所以进阶后可以直接用scrapy