![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
clover猪猪
没有最好,只有更好
展开
-
python爬虫学习第一周总结
Beatifulsoup中文文档:http://beautifulsoup.readthedocs.io/zh_CN/latest/Requests官方文档(中文):http://docs.python-requests.org/zh_CN/latest/user/quickstart.html一、解析网页中的元素beatifulsoup右键copy selector或xpath,描述元素在网页中原创 2018-01-18 11:14:42 · 490 阅读 · 0 评论 -
python爬虫:又和geckodriver折腾了一番(火狐浏览器)
geckodriver下载地址: https://github.com/mozilla/geckodriver/releases换了python真是什么都得重新弄。1、首先使用pip安装selenium:pip install selenium2、到官网下载geckodriver(一定注意版本,不然会出现版本问题)注意geckodriver的存放目录位置如果是pyt原创 2018-01-30 11:32:27 · 4993 阅读 · 0 评论 -
python爬虫:如何安装phantomjs
下载地址:http://phantomjs.org/download.html下载以后解压,将bin目录下的exe文件放到python的scripts目录下,就可以在python中使用了转载 2018-02-04 20:44:17 · 3992 阅读 · 1 评论 -
python爬虫:cookie的使用
在做登录的post请求时,需要记住cookie,否则不能访问登录后的页面。下面是登录的代码:#coding:utf-8import urllibimport http.cookiejarurl = "http://c.highpin.cn/Users/CLogin"postdata =urllib.parse.urlencode({ "Logon_Password":"转载 2018-01-19 20:25:00 · 689 阅读 · 0 评论 -
python爬虫:代理及相关注意问题
代理网址:http://www.goubanjia.com/free/index.shtmlimport randomimport requestsfrom bs4 import BeautifulSoup#自动导入包,alt+inter# http://cn-proxy.com/proxy_list = ( 'http://117.177.250.151:8081',原创 2018-01-19 14:55:23 · 419 阅读 · 0 评论 -
python爬虫:xpath
xpath学习网址:http://www.w3school.com.cn/xpath/index.asp基础知识和实际操作存在一定差异,还在探索中,感觉使用xpath没比beatifulsoup快多少,可能是电脑问题练习:# -*- coding: utf-8 -*-import requestsimport urllib.requestfrom lxml import etreeimpo原创 2018-01-19 10:18:27 · 457 阅读 · 0 评论 -
python爬虫:不同解析网页方式添加报头
一、使用urllib.requestimport urllib.requesturl = 'https://weheartit.com/discover/book/articles'#向服务器发送请求req = urllib.request.Request(url) #添加报头,add_header()是方法,所以中间用逗号,注意与下面区分req.add_header('Use原创 2018-01-18 17:18:00 · 650 阅读 · 0 评论 -
python爬虫:爬取猫眼电影(分数的处理和多线程)
爬取用的库是requests和beautifulsoup,代码编写不难,主要是个别的细节处理需要注意1、电影得分的处理右键审查元素,我们看到分数的整数部分和小数部分是分开的,在beautifulsoup中,我们可以用(.strings或者.stripped_strings),但是这样取出来的内容是一个可迭代的生成器,只用用列表或字典才能看到结果到网上搜罗了一圈终于找到解决办法,原创 2018-02-02 10:39:51 · 1700 阅读 · 0 评论 -
python爬虫学习第二周总结
一、在pycharm中使用mongodb打开pycharm,点击setting,如图所示,安装mongo插件练习一:向数据库中存入数据from bs4 import BeautifulSoupimport requestsimport pymongoimport random #引入random模块,是想每次让程序sleep()的时间变为随机数,而不是固定的几秒,random.randi原创 2018-01-18 14:14:30 · 411 阅读 · 0 评论 -
MongoDB的安装和配置
MongoDB教程:http://www.runoob.com/mongodb/mongodb-tutorial.htmlMongoDB是一个非常棒的非关系型数据库,特别是在用Node.js的时候。网上虽然有很多安装教程,但是大部分都非常乱,启动也不方便,因此,下面介绍一下MongoDB的安装和配置。1、去官网下载mongodb,MongoDB Download Center,下面是我下载的,如图转载 2018-01-18 11:21:39 · 165 阅读 · 0 评论 -
python爬虫:快到情人节啦,做些爱心图片
爬虫代码:#encoding=utf-8import requestsfrom bs4 import BeautifulSoupimport timeimport randomurls = ['https://www.duanwenxue.com/huayu/tianyanmiyu/list_{}.html'.format(str(i)) for i in range(1,50)]...原创 2018-02-12 15:41:47 · 3820 阅读 · 1 评论