python爬虫1---HTML基础

  • 查看网页的HTML源码(“检查”)
  • HTML的层级
  • HTML的组成
    标签和元素
    网页头和网页体
    属性

这个书苑不太冷5.0 HTML源码(部分)

<div id="article">
    <div id="nav">
        <a href="#type1" class="catlog">科幻小说</a><br>
        <a href="#type2" class="catlog">人文读物</a><br>
        <a href="#type3" class="catlog">技术参考</a><br>
    </div>
    <div id="main">
        <div class="books">
            <h2><a name="type1">科幻小说</a></h2>
            <a href="https://book.douban.com/subject/27077140/" class="title">《奇点遗民》</a>
            <p class="info">本书精选收录了刘宇昆的科幻佳作共22篇。《奇点遗民》融入了科幻艺术吸引人的几大元素:数字化生命、影像化记忆、人工智能、外星访客……刘宇昆的独特之处在于,他写的不是科幻探险或英雄奇幻,而是数据时代里每个人的生活和情感变化。透过这本书,我们看到的不仅是未来还有当下。</p> 
            <img class="img" src="./spider-men5.0_files/s29492583.jpg">
            <br/>
            <br/>
            <hr size="1">
        </div>
        
        <div class="books">
            <h2><a name="type2">人文读物</a></h2>
            <a href="https://book.douban.com/subject/26943161/" class="title">《未来简史》</a>
            <p class="info">未来,人类将面临着三大问题:生物本身就是算法,生命是不断处理数据的过程;意识与智能的分离;拥有大数据积累的外部环境将比我们自己更了解自己。如何看待这三大问题,以及如何采取应对措施,将直接影响着人类未来的发展。</p> 
            <img class="img" src="./spider-men5.0_files/s29287103.jpg">
            <br/>
            <br/>
            <hr size="1">
        </div>
        
        <div class="books">
            <h2><a name="type3">技术参考</a></h2>
            <a href="https://book.douban.com/subject/25779298/" class="title">《利用Python进行数据分析》</a>
            <p class="info">本书含有大量的实践案例,你将学会如何利用各种Python库(包括NumPy、pandas、matplotlib以及IPython等)高效地解决各式各样的数据分析问题。由于作者Wes McKinney是pandas库的主要作者,所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。</p> 
            <img class="img" src="./spider-men5.0_files/s27275372.jpg">
            <br/>
            <br/>
            <hr size="1">
        </div>
    </div>
</div> 


<!--
(第9、19、29行)给h2元素标注了name属性,< section id='nav'>中的超链接标签(第3、4、5行)以这个name属性为标识,设置了跳转到这个标题的锚点;
(第10、20、30行)给书名添加了超链接,可以链接到这本书的豆瓣主页;以及,(第12、22、32行)用<img>标签添加了书的封面图片。 -->
获取网页源码

URL: https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html

import requests
#引用requests库
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html')
#res.encoding='utf-8'
code=res.text 
#把Response对象的内容以字符串的形式返回
#print(code)
k = open('htmlcode.txt','a+',encoding='utf-8')
#创建一个名为htmlcode的txt文档,指针放在文件末尾,追加内容
k.write(code)
#写进文件中     
k.close()
#关闭文档 
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值