Python爬虫笔记

  • 1: Pycharm无法引入bs4库
  • ① 点击Preference —— ② 选择Project Reference ——
  • ③ 点击左下角 + 标号 —— ④ 搜索BeautifulSoup4 —— ⑤点击安装
  • 2.BeautifulSoup的理解

     # 选取中间部分div_listbox
      div_listbox = soup.find_all(name='div', attrs={"class": "text fl"})
      div_listbox_str = str(div_listbox)
      div_listbox_soup = BeautifulSoup(div_listbox_str, "html.parser")
    
  • 3.标签树的下行遍历

  • 4.做好一锅粥

     # 做好一锅汤soup
      r = requests.get(index, headers=kv)
      r.encoding = r.apparent_encoding
      demo = r.text
      soup = BeautifulSoup(demo, "html.parser")
      soup.prettify()
    
  • 5.查看某tag标签



  • 6.find_all()


  • 6.获取所有的a标签

  • 7.爬取JS加载的数据

  • https://blog.csdn.net/qq_26200629/article/details/86141131 # 安装selinium库后,安装chrome_driver

  • 使用driver

     src = list((index+"{}.html".format(i) for i in range(1,5)))
      #创建模拟浏览器浏览的driver
      driver = webdriver.Chrome(executable_path=driver_path)
      time.sleep(3)
      driver.maximize_window()    #最大化浏览器
      driver.get(index)
      data = driver.page_source
      soup = BeautifulSoup(data,'lxml')
    
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值