pycharm初爬虫

今天尝试使用pycharm+beautifulsoup进行爬虫测试。我理解的主要分成了自己写的HTML和百度上的网页两种吧。第一种,读自己写的网页(直接上代码):

(主要参考博客:https://blog.csdn.net/Ka_Ka314/article/details/80999803)

from bs4 import BeautifulSoup

file = open('aa.html', 'rb')
html = file.read()
bs = BeautifulSoup(html,"html.parser")

# 缩进格式
print(bs.prettify())

# 获取title标签的所有内容
print(bs.title)

# 获取title标签的名称
print(bs.title.name)

# 获取title标签的文本内容
print(bs.title.string)

# 获取head标签的所有内容
print(bs.head)

# 获取第一个div标签中的所有内容
print(bs.div)

# 获取第一个div标签的id的值
print(bs.div["id"])

# 获取第一个a标签中的所有内容
print(bs.a)

# 获取所有的a标签中的所有内容
print(bs.find_all("a"))

# 获取id="u1"
print(bs.find(id="u1"))

# 获取所有的a标签,并遍历打印a标签中的href的值
for item in bs.find_all("a"):
    print(item.get("href"))

# 获取所有的a标签,并遍历打印a标签的文本值
for item in bs.find_all("a"):
    print(item.get_text())

  HTML代码:

<!DOCTYPE html>
<!--STATUS OK-->
<html>
 <head>
  <meta content="text/html;charset=utf-8" http-equiv="content-type"/>
  <meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
  <meta content="always" name="referrer"/>
  <link href="https://ss1.bdstatic.com/5eN1bjq8AAUYm2zgoY3K/r/www/cache/bdorz/baidu.min.css" rel="stylesheet" type="text/css"/>
  <title>
   百度一下,你就知道
  </title>
 </head>
 <body link="#0000cc">
  <div id="wrapper">
   <div id="head">
    <div class="head_wrapper">
     <div id="u1">
      <a class="mnav" href="http://news.baidu.com" name="tj_trnews">
       新闻
      </a>
      <a class="mnav" href="https://www.hao123.com" name="tj_trhao123">
       hao123
      </a>
      <a class="mnav" href="http://map.baidu.com" name="tj_trmap">
       地图
      </a>
      <a class="mnav" href="http://v.baidu.com" name="tj_trvideo">
       视频
      </a>
      <a class="mnav" href="http://tieba.baidu.com" name="tj_trtieba">
       贴吧
      </a>
      <a class="bri" href="//www.baidu.com/more/" name="tj_briicon" style="display: block;">
       更多产品
      </a>
     </div>
    </div>
   </div>
  </div>
 </body>
</html>

  项目目录:

           

 第二种是爬取在线网页内容,使用URL解析,这里我使用时出现了问题,就是URLopen。因为没有找到python27和python36区别,所以这里直接上结果(我用的python36),下载urllib.request的包。网上个别教程直接使用urllib,这里我把urllib3、5进行了下载,会报一个错误,显示连接网页超时。下下载这个urllib没问题

 

转载于:https://www.cnblogs.com/mm20/p/10356347.html

PyCharm是一款功能强大的IDE(集成开发环境)工具,可用于开发各种编程语言,包括Python。对于网络爬虫开发而言,PyCharm提供了许多便捷的功能和工具,以下是其在网络爬虫中的常用功能: 1. 代码编辑器:PyCharm提供了一款功能强大的代码编辑器,具有智能补全、语法高亮、代码格式化等功能,可以大幅提高开发效率。 2. 调试器:网络爬虫开发中可能会遇到各种问题,使用PyCharm的调试器可以帮助我们逐行检查代码、查找错误,并提供变量的实时值,方便调试代码。 3. 版本控制:PyCharm集成了常用的版本控制系统,如Git、Mercurial等,可以帮助我们管理代码的版本,方便多人协作开发。 4. 网页预览:网络爬虫的目标往往是获取网页内容,PyCharm提供了内置的浏览器预览功能,可以在IDE中直接查看爬取的网页内容和效果。 5. 插件支持:PyCharm拥有庞大的插件生态系统,开发者可以根据自己的需要安装适用于网络爬虫开发的插件,如Scrapy、BeautifulSoup等,以便更好地开发和调试爬虫程序。 综上所述,PyCharm是一款非常适用于网络爬虫开发的工具,它提供了强大的代码编辑、调试、版本控制、网页预览等功能,帮助开发者更加高效地编写、调试和管理网络爬虫程序。无论是学者还是有经验的开发者,都可以通过PyCharm来简化开发流程、提高开发效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值