python爬虫step1:selenium

临时被上司安排做爬虫,由于是小白,一路bug层出不穷,几天折腾下来,终于算是稍稍入了门,立个flag。
Step1:Python爬虫包的选择,刚开始是用的urllib,接口调用很简单,但很鸡肋:

  import urllib2
  import urllib
  headers = {'User-Agent': 'User-Agent:Mozilla/5.0 (iPhone; CPU iPhone OS 7_1_2 like Mac    OS X) App leWebKit/537.51.2 (KHTML, like Gecko) Version/7.0 Mobile/11D257 Safari/9537.53'}
  url = "http://www~.html"
  data={'keyword':"TCL"}
  data = urllib.urlencode(data)
  request = urllib2.Request(url,headers=headers,data=data)
  response = urllib2.urlopen(request)
  txt = response.read()

然而用urllib无法从网站抓取到动态内容,之后百度到了一个神器selenium, pip install selenium即可安装。

 from selenium import webdriver
 chrome_options = webdriver.ChromeOptions()
 chrome_options.add_argument('-proxy-server=http://58.23.130.18:8080')
 browser = webdriver.Chrome(chrome_options=chrome_options)
 browser.get(url)
 txt = browser.page_source

这里使用了代理IP(’-proxy-server=http://58.23.130.18:8080‘),刚开始傻,直接用本机ip爬,结果导致整个公司的内网ip都被禁止了。。。。
selenium自带的浏览器是火狐的,我用的是Chrome,因此必须下一个Chromedriver放在python的安装文件夹里(Chromedriver没有win64版本的,win64的电脑使用的也是win32版本的)
txt就是爬取的网页HTML源码,网上有很多推荐的HTML解析器,但是因为我要抓取的内容比较少,所以直接正则搞定了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值