python爬虫学习之路
文章平均质量分 73
高智商的坏蛋
坚持
展开
-
python读取网页三种基本方式
环境:win7、pycharm、python2 所用到的库:urllib2注意:python2 不同于python3 在python2中要注意编码问题(爬取网页会涉及到中文要写:#coding:utf-8)#coding:utf-8print "hello" #中国 python2中要注意编码问题,头部要加coding=utf-8读取网页第一种方式:import urllib2def down...原创 2018-05-19 20:35:03 · 18302 阅读 · 0 评论 -
BeautifulSoup复习练习爬取图片错误及改正
需求:根据目标网站“http://www.youzi4.cc/”为基础,抓取首页页面的图片并下载到本地,并命名为图片标签中alt="命名内容"环境:win7 、pycharm、python2、所用到的库:urllib 、 BeautifulSoup、requests、其中遇到的错误: #<img alt="大腿上的玫瑰蛇纹身图案_大腿纹身图案" height="14...原创 2018-07-11 22:37:48 · 2794 阅读 · 2 评论 -
BeautifulSoup 总结
BeautifulSoup是Python的一个库,最主要的功能就是从网页爬取我们需要的数据。BeautifulSoup将html解析为对象进行处理,全部页面转变为字典或者数组,相对于正则表达式的方式,可以大大简化处理过程。BeautifulSoup总结:BeautifulSoup的三种解析方式:soup1 = BeautifulSoup(html, "lxml") # lxml解析方式 速度快容...原创 2018-07-11 16:48:07 · 710 阅读 · 0 评论 -
爬取智联招聘岗位描述并根据描述生成词云
前言:根据搜索相关的职位,获取职位数量,由职位数量得到职位相关页码链接,再由相关页码链接获得每个职位链接,最后由职位链接获取详细的职位描述。以上获得链接和职位描述由正则表达式完成。环境:win7 、pycharm、python2、所用到的库:urllib2 、 re、urllib、time 、jieba、matplotlib、wordcloud、numpy、PIL文件组成: main.py -...原创 2018-06-09 17:45:00 · 1803 阅读 · 2 评论 -
自定义图形词云
我们常常看到一些带有图形的词云,如下图所示:他们是怎么制作的呢,下面我就来做一个轻量级的图形词云。环境:win7 ,pycharm,python3所用到的库: matplotlib, wordcloud, numpy, PIL ,os代码如下:from os import pathfrom PIL import Imageimport numpy as npimport matplotlib...原创 2018-06-07 16:46:38 · 1332 阅读 · 0 评论 -
轻量级词云制作
环境:win7 ,pycharm,python3所用到的库:jieba , matplotlib, wordcloud, numpy, PIL所用文件:一张背景图片(1.jpg),任意一种字体(mysh.ttf),任意一个txt小说(dushi.txt)代码如下:#coding:utf-8import jiebaimport matplotlib.pyplot as plt #数据可视化im...原创 2018-06-07 15:11:44 · 396 阅读 · 0 评论 -
在安装wordcloud库时遇到的问题及解决方法
本篇博客主要内容:1、解决python2安装wordcloud中出现的问题。2、解决python3安装wordcloud中出现的问题。词云制作的时候需要 wordcloud 库。在python2中安装wordcloud中遇见了以下问题:error:Microsoft Visual C++ 9.0 is required.Get it from http://aka.ms/vcpython27显...原创 2018-06-07 14:54:29 · 11306 阅读 · 1 评论 -
python基本数据可视化遇到的错误
环境:win7 、pycharm、python2、所用到的库:matplotlib 需求:想要用matplotlib 做一个简单的数据可视化的图像。代码如下: #coding:utf-8import matplotlibimport matplotlib.pyplot as plt #数据可视化plt.bar([1],[123],label=u"2")plt.bar([2],[143],l...原创 2018-06-07 07:59:31 · 2012 阅读 · 0 评论 -
python爬虫批量下载美女吧美女图片
前言: 昨天和前天没有更新博客一方面的原因是我给一位学姐改进了一下毕业设计-----俄罗斯方块(C语言版),另一方面的原因就是我想利用xpath去抓取特定标签,但学习一天没有抓到,无奈只好用正则表达式去进行爬取,对于我来说正则表达式似乎要简单一些,也可能是我还没有学会xpath的抓取方法。话不多说,直接贴成果。环境:win7 、pycharm、python2、所用到的库:urllib...原创 2018-06-13 09:16:33 · 3490 阅读 · 1 评论 -
python2与python3爬虫小区别
环境:win7 、pycharm、python2、所用到的库:urllib2 #coding:utf-8import urllib2def down(url): response = urllib2.urlopen(url) print type(response) #打印类型 <class 'http.client.HTTPResponse'> print...原创 2018-05-22 14:35:13 · 1302 阅读 · 0 评论 -
爬虫-简单抓取51job特定数据
#coding:utf-8import urllib2import redef search(name): url="https://search.51job.com/list/000000,000000,0000,00,9,99,"+name+",2,1.html?lang=c&stype=&postchannel=0000&workyear=99&...原创 2018-05-22 09:52:17 · 2017 阅读 · 0 评论 -
简单抓取智联招聘特定数据
环境:win7 、pycharm、python2、所用到的库:urllib2 、 re#coding:utf-8 #解决编码问题import urllib2 #与请求url相关操作的模块import re #通过正则表达式进行字符串处理的模块def search(name): url = "https://sou.zhaopin.com/jobs/searchresult.ashx...原创 2018-05-21 19:23:54 · 2248 阅读 · 0 评论 -
selenium最新模拟登录知乎
selenium最新模拟登录知乎本篇主要内容利用selenium 分别模拟登录 电脑网页版知乎 和 安卓版网页知乎环境:win7 ,pycharm,python3所用到的库:selenium之前我一直以为只有,明确的 id="xxx" 的时候,用driver.find_element_by_id("xxxx"),才可以提交用户名以及密码这类的表单,经过今天过后我知道了用find_element...原创 2018-07-13 18:08:58 · 3226 阅读 · 2 评论