python爬虫
南人旧心1906
这个作者很懒,什么都没留下…
展开
-
python爬虫一些好的视频讲解
小编也是正在学习python爬虫,所以将小编我所看到的不错的视频想分享给各位小哥哥周莫烦的视屏讲的内容挺完整的,思路讲的也清晰,听他讲课非常幽默周莫烦的正则表达式:https://www.youtube.com/watch?v=l1MAW1z641E这是周莫烦又一个系列的,主讲python3的爬虫基础,对于爬虫什么基础都没有的人来说,这可以算说是一个很不错的启蒙视屏教程https:...原创 2019-02-09 19:08:15 · 683 阅读 · 2 评论 -
python 2.7 图片下载爬虫
写图片爬虫的一些心得1.先到所要下载图片的网址看看,页面请求的网址是哪个(我用的是goolge浏览器)2.点击所要下载的图片,查看其具体位置,(方便查找img链接)3.找好之后就可以写代码了4.主要难度是找到img=“”的具体位置,需要正则表达搜索一下不会正则的或是beautifulsoup的小伙伴可以参考一下这两个视屏beautifulsoup:https://www.y...原创 2018-10-31 21:29:34 · 504 阅读 · 0 评论 -
python爬虫之BeautifulSoup学习
1. Beautiful Soup的简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Sou...转载 2018-10-30 20:37:24 · 189 阅读 · 0 评论 -
python爬虫一些基本编码语句
#coding=utf-8import requestsimport refrom bs4 import BeautifulSoup#BeautifulSoup正则表达式搜索html = """<html><head><title>The Dormouse's story</title></head><bod原创 2018-11-10 10:26:04 · 392 阅读 · 0 评论 -
python 2.7 音频《三国演义》下载
自己总结的一些思路:1.先到所要下载的音频的网页查找网络的一些基本信息(url,headers)2.在network里查找json文件,得到下载所在的网页路径3.开始编码4.先正则匹配到每章节的id和名称5.找到该章节下载所在的网页6.正则匹配下载网页里的下载网址7.以.m4a的 形式存到本地#coding=utf-8import requestsimport ref...原创 2018-11-02 21:02:53 · 391 阅读 · 0 评论 -
python 2.7 将网页上的数据下载到数据库
#coding = utf-8import requestsimport pymysqlimport reimport osfrom bs4 import BeautifulSoupfrom time import sleepdef main(): conn = pymysql.connect( host = '127.0.0.1', us...原创 2018-11-08 15:31:26 · 374 阅读 · 0 评论 -
python中报错requests.exceptions.InvalidHeader: Invalid return character or leading space in header: Acc
这是因为你在写头部的时候加入了空格,例:headers={ 'Host' : ' 123.206.31.85:49167', 'User-Agent' : ' Mozilla/5.0 (Windows NT 10.0; WOW64; rv:65.0) Gecko/20100101 Firefox/65.0', 'Accept' : ' text/html,applic...原创 2019-02-09 15:26:38 · 17162 阅读 · 6 评论 -
python多线程爬虫爬取喜马拉雅网页所有带id的音频
本学期python课程设计:设计流程图:代码实现:#-*-coding:utf-8-*-import requestsimport reimport osimport multiprocessingimport timefrom bs4 import BeautifulSoupdef save_path(): if os.path.exist...原创 2019-07-03 21:25:21 · 1458 阅读 · 0 评论