![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
文章平均质量分 53
奈斯菟咪踢呦
联系电话:15718879112
展开
-
python 词云制作
制作词云需要两个python核心类库准备工作1、jieba中文分词器安装:pip install jieba2、wordcloud:Python下的词云生成工具安装:下载https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud下载完成后在该包的目录下执行pip install wordcloud-1.6.0-cp36-cp36m-w...原创 2020-01-13 16:14:44 · 407 阅读 · 0 评论 -
python re模块匹配字符串方法
1. re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。import re line="this hdr-biz 123 model server 456"pattern=r"123"matchObj = re.match( pattern, line) 2. re.search 扫描整个字符串并返回第一个成功的匹配。...原创 2019-11-07 19:37:42 · 3098 阅读 · 0 评论 -
python scrapy框架爬取当当网商品信息
创建项目:scrapy startproject dangdang 如下用pycharm打开: 使用默认模版创建爬虫scrapy genspider -t basic dd dangdang.com执行完毕: 一、编写item,需要爬取的信息model# -*- coding: utf-8 -*-# Define here the models for yo...原创 2018-05-29 09:53:49 · 1434 阅读 · 0 评论 -
pycharm 运行调试scrapy爬虫项目
1、打开python scrapy项目: 在spider文件下的爬虫文件dd.py中,代码里name = ‘dd’ ,这个名字后面用到2、在spider文件下新建一个启动文件 start.py这里写代码片...原创 2018-05-29 10:08:30 · 682 阅读 · 0 评论 -
Python中遇到的错误IndentationError: unexpected indent
刚开始学习python一段时间今天遇到了一个问题: IndentationError: unexpected indent 查了这是缩进的错误,python讲求缩进严格,有时候粗心大意不注意就会出现这种错误。修改报错位置的缩进。就可以解决...原创 2018-05-29 10:12:03 · 1207 阅读 · 0 评论 -
Python模拟登陆京东
一、分析网络请求1、打开京东登陆网页:https://passport.jd.com/new/login.aspx 2、打开浏览器调试面板 ,接着输入账号密码进行登陆;此时在浏览器调试面板Network捕捉到网络信息 在调试面板下找到登陆的那个post请求:如上图的红色框中:https://passport.jd.com/uc/loginService?uuid=a1a5174c-...原创 2018-06-12 18:00:07 · 5263 阅读 · 1 评论 -
Python 利用selenium和PhantomJS 爬取京东商品页面商品列表
selenium+PhantomJS 介绍、安装、使用:https://blog.csdn.net/qq_34288630/article/details/80342255一、分析所要爬取url:京东商品列表如图: 3、每页有很多商品,打开页面只加载了一部分,所以需要滑动将所有的数据加载出来,否则获取不到 4、故用selenium模拟浏览器下滑操作,再将页面源码给bs4进行解析...原创 2018-05-31 17:09:08 · 1101 阅读 · 0 评论 -
阿里云Anaconda3 安装报错 bunzip2: command not found
最近部署python爬虫,去阿里云服务器安装python环境的时候Anaconda3 安装报错 :一、问题Anaconda3-2018.12-Linux-x86_64.sh: line 353: bunzip2: command not foundtar: This does not look like a tar archivetar: Exiting with failure stat...原创 2019-01-26 11:20:59 · 514 阅读 · 0 评论 -
xpath中extract()使用
1、 title = response.xpath("//div[@class='entry-header']/h1/text()") 2、 title = response.xpath("//div[@class='entry-header']/h1/text()").extract() 3、 title = response.xpath("//div[@class='entr...转载 2019-03-05 10:51:19 · 2151 阅读 · 0 评论 -
Linux下安装Anaconda3详细教程
简介Anaconda是一个开源的包、环境管理器,可以用于在同一个机器上安装不同版本的软件包及其依赖,并能够在不同的环境之间切换Anaconda包括Conda、Python以及一大堆安装好的工具包,比如:numpy、pandas等环境linux 阿里云服务器下载1、进入官网选择要下载的版本和操作系统https://www.anaconda.com/distribution/安装...原创 2019-03-08 15:23:41 · 112404 阅读 · 8 评论 -
python第三方库安装
python第三方库安装1、使用pip进行在线安装;2、下载资源包,进行离线安装;3、下载包的模块进行离线安装;一、使用pip进行在线安装1、首先确定你的Python已经安装了pip;(Python3在安装的过程中自动为用户安装了pip,但是Python2中没有为用户安装,需要手动进行安装。)2、确保电脑是联网状态,输入命令直接安装即可;(命令:pip install + 要安装的模块...原创 2019-08-05 19:54:53 · 204 阅读 · 0 评论 -
Dajango连接mysql问题
问题11、在使用 Django 连接 MySQL 数据库的时候,出现了错误django.core.exceptions.ImproperlyConfigured: Error loading MySQLdb module: No module named ‘MySQLdb’解决办法:在 python2 中,使用 pip install mysql-python 进行安装连接MySQL的库,...原创 2019-08-19 15:06:38 · 255 阅读 · 0 评论 -
Python爬虫(代理的使用)
好多网站都有反爬措施,例如很多网站会检测某一段时间某一个IP的访问次数太过于频繁,就有可能会禁止这个IP的访问。当然面对这种情况可定也有相应的措施,我们只要隔一段时间换一个IP就可以了。因此我们就需要一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,依然可以换个IP继续爬。在python中,可以使用urllib2中的ProxyHandler来设置使用代理服务器,下面通过代码说明如何来使用...原创 2018-05-24 10:37:06 · 4540 阅读 · 1 评论 -
学习Python遇到问题: import urllib.request ImportError: No module named request
1、最近学习python 写了一个简单的爬虫例子 遇到下面问题 废了我几个小时 # coding=utf-8import urllib.requesturl = "http://www.baidu.com"data = urllib.request.urlopen(url).read()data = data.decode('UTF-8')print(data)后来发现 ...原创 2018-04-23 16:18:00 · 10393 阅读 · 1 评论 -
Python爬虫URLError异常处理
爬虫过程中遇到URLError和HTTPError的处理1、URLError首先解释一下URLError可能产生的原因: (1)网络无连接,即本机无法上网 (2)连接不到特定服务器 (3)服务器不存在在代码中,我们需要用try-except语句来包围并补货异常,下面的例子:# coding=utf-8import urllib2request = urllib2.R...原创 2018-05-02 09:31:29 · 368 阅读 · 0 评论 -
Python爬虫之爬取豆瓣电影(二)
上一篇爬取到了5000多部电影的信息 ,并把电影数据保存到了movies中,其中每一项都是一个字典,包含评分rate,电影标题title,详情页URL,封面图片链接,豆瓣电影编号id等,此时我需要进一步爬取各个电影的对应的详情页,其中各个信息。导演,简介,语言,片长等首先遍历movies中的每一个url,请求url进入每部电影的详情页,分别获取其简介 看代码:# coding=u...原创 2018-05-02 09:52:54 · 554 阅读 · 0 评论 -
Python2.7爬虫入门之Urllib库的基本使用
我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在于HTML中的,下面我们就写个例子来扒一个网页下来。1.扒一个网页下来import urllib2response = urllib2.urlopen(...原创 2018-04-26 08:57:53 · 1123 阅读 · 0 评论 -
python2.7安装MySQLdb模块(以及安装出现的问题和解决方式)
1、安装MySQLdb我的Python的版本为2.7,需要额外安装的库有两个,一个是Beautiful Soup,(解析网页)一个是MySQLdb(连接mysql)进入https://sourceforge.net/projects/mysql-python/ 下载 MySQLdb下载号双击exe: 此时遇到问题 安装MySQL-python-1.2.4b4.win32...原创 2018-05-10 14:30:18 · 4166 阅读 · 0 评论 -
Python 爬虫框架 Scrapy 简介、安装、配置、入门示例
一、Scrapy 安装1、执行下面命令 pip install Scrapy 2、通过PyCharm安装 (安装第三方类库的方法一样)file ——》seting 安装成功后验证一下 cmd 输入 Scrapy: 二、创建一个scrapy项目输入命令: scrapy startproject tutorial 创建成功!打开! ...原创 2018-05-17 15:23:34 · 248 阅读 · 0 评论 -
Python爬虫之爬取知乎帖子并保存到mysql(以及遇到问题和解决方法)
前提:安装好MySQLdb模块 安装方法:https://blog.csdn.net/qq_34288630/article/details/802672631、爬取url:https://www.zhihu.com/topic/19607535/top-answers 爬取问题标题并保存到数据库:代码:# coding=utf-8import urllibimport u...原创 2018-05-11 11:42:41 · 1179 阅读 · 0 评论 -
Python爬虫之爬取豆瓣电影(一)
最近闲来无事 学习python爬虫,爬取豆瓣电影一、分析网页 打开豆瓣电影 按F12 ,刷新豆瓣网页,会发现Network的XHR中有链接 粘贴出链接 https://movie.douban.com/j/search_tags?type=movie&source= 会出现如下json:{"tags":["热门","最新","经典","可播放","豆瓣原创 2018-04-27 09:18:03 · 4088 阅读 · 0 评论 -
Python爬虫之百度贴吧
目标: 1、对百度贴吧的任意帖子进行爬取 2、爬取帖子指定内容 3、将爬取内容保存到文件1、分析urlhttps://tieba.baidu.com/p/3138733512?see_lz=1&pn=1 分析: https:传输协议 tieba.baidu.com:百度二级域名 p/3138733512:资源定位 see_lz=1&pn=1:参数se...原创 2018-05-08 14:07:23 · 348 阅读 · 0 评论 -
Python爬虫 selenium+PhantomJS 介绍、安装、使用
之前用Java做过爬虫,也用到过selenium和PhantomJS。最近痴迷于python爬虫,将selenium+PhantomJS在python中的应用详细总结一下。一、Selenium介绍Selenium 是什么?一句话,自动化测试工具。它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器,如果你在这些浏览器里面安装一个 Selenium 的插件,...原创 2018-05-16 20:12:06 · 4137 阅读 · 1 评论 -
PyCharm安装第三方库
如Requests 1、File–》seting 2、3、点击右边绿色添加 如下图 4、搜索栏 查要下载的库 如:requests 点击下载后 requests变蓝 需要注意一下,如果你安装的project interpreter也就是python版本为3.x版本,很多2.x版本的库是搜索不到的...原创 2018-04-23 15:05:26 · 250 阅读 · 0 评论