python爬虫
文章平均质量分 95
fIsh1220Fish
这个作者很懒,什么都没留下…
展开
-
python实现某网站的音乐下载
写在前面:首先,理论上讲,如果歌曲可以在网页上播放,那么一定有网址(source src)保存着歌曲的源文件。那么利用火狐(或者谷歌)浏览器的F12功能,就可以快速提取出该source src,进而完成歌曲下载了。基于上述操作,我就想到了用python把如前所述封装起来,输入歌曲名称进行选择进而完成下载。1. 前期准备开发环境:win10 + py3.5(即windows + py3.x)需要原创 2017-12-18 12:06:27 · 3391 阅读 · 0 评论 -
百度贴吧帖子搜索器-升级版
百度贴吧帖子搜索器-升级版 上一篇博文里,使用了bs4做成了第一版的百度贴吧帖子搜索器,但是界面仍为dos,实在是不美观。这几天学习了一下tkinter,然后在原有的基础上添加了一些框架,就成了升级版V3。一、Tkinter简介Tkinter是用来为python添加可视化界面的库,相对于其他的几个库,如PyQt、wxPython等,Tkinter具有操作简单、易于上手的优点,很适合初学者使用。原创 2017-09-12 20:43:15 · 2379 阅读 · 2 评论 -
Python3实现百度贴吧帖子搜索
一、前言 由于实习公司市场营销部前置营销的需要,给我们布置了在百度贴吧检索特定帖子的任务。考虑到一页一页人工搜索效率低,于是打算用爬虫实现一个帖子检索器,并把相关内容保存下来。二、配置环境 之前使用机器学习的时候,一直是在Ubuntu虚拟机上运行,而这次需要在Windows上运行,所以重新配置了一波环境。1. Python3.5安装首先,在Python下载网站下载需要的Python,需要原创 2017-07-30 11:48:09 · 1263 阅读 · 0 评论 -
基于scrapy的分布式爬虫(1):环境配置
概述与环境配置本节主要内容包括:简述 “数据用途”Pycharm的安装MySQL与Navicat安装virtualenv和virtualenvwrapper的使用1. 数据用途2. Pycharm的安装Windows 系统Linux 系统2.1 Windows 系统步骤搜索、下载 Pycharm - Professional 版本;...原创 2018-03-09 15:50:34 · 469 阅读 · 0 评论 -
基于scrapy的分布式爬虫(3):正则表达式
正则表达式 正则表达式,regular expression,通常被简写为 regex,其作用是对于信息的提取。基本用法常见元字符及语法使用正则表达式编程练习题优质学习资源推荐基本用法python 中的正则表达式使用不需要安装第三方库,只需要调用re库即可,具体写法为:import resubject = "我是一个粉刷匠,粉刷本领强。"re...原创 2018-03-16 17:08:10 · 3083 阅读 · 0 评论 -
基于scrapy的分布式爬虫(2):sublime下配置virtualenv
Sublime下配置虚拟环境由于无法使用 Pycharm 快速调用虚拟环境,因此需要考虑如何在 sublime3 下配置虚拟环境。sublime插件的安装virtualenv的配置sublime插件的安装ctrl + shift + p:打开管理工具;输入install Package,进入插件下载;输入virtualenv,进行虚拟环境插件安装;输入remo...原创 2018-03-14 13:49:47 · 776 阅读 · 1 评论 -
基于scrapy的分布式爬虫(4):python 中的编码问题
python 中的编码问题很多时候,我们在写 python 代码时,会被各种编码格式搞得焦头烂额,譬如最常见的 unicode、ASCII、utf-8、gb2312 以及各类不同的 iso-xxxx。下面,我们来了解一下他们之间的关系以及在 python 中如何正确的进行转换。为什么会有各类编码?unicode 与 utf-8 之间的关系?python 中如何正确使用?...原创 2018-03-26 17:10:40 · 752 阅读 · 0 评论 -
基于scrapy的分布式爬虫(5):伯乐在线文章爬取
当我们完成了环境配置之后,所要做的就是使用 scrapy 爬取相关数据了。接下来,我们以伯乐在线网站为例,进行实际操作。目的:抓取 http://blog.jobbole.com/all-posts/ 网址下的全部文章信息,包括“标题”、“创建时间”、“封面图”、“点赞数”、“收藏数”、“评论数”以及“文章内容”。新建项目首先,我们要完成scrapy项目的新建,在cmd下运行如...原创 2018-04-09 11:09:12 · 356 阅读 · 0 评论