python爬虫那些坑
文章平均质量分 67
小豪学长啊
这个作者很懒,什么都没留下…
展开
-
爬取豆瓣读书那些事
# -*- coding: utf-8 -*-import re,osimport urllib2,csvimport timeimport numpy as npfrom lxml import etreeimport sysreload(sys)sys.setdefaultencoding( "utf-8" )"""-------------------原创 2016-10-22 12:01:31 · 516 阅读 · 0 评论 -
微博爬虫之问题种种
好不容易模拟登陆上了微博,想着可以好好执行我的爬虫之旅了,然而并没有,,,,,,一个微博账号以及一个IP地址不能爬太多信息,否则微博会当成机器人(事实也是机器人,哈哈),于是上万能的淘宝买了两个微博账号想着拿来轮换登陆爬信息,GG,在微博页面上是可以的登陆的,然而在代码上获取微博网页代码却不可以,想着应该是买的账号有问题,于是用了同事的小号,结果是可以的。但是这也只是解决账号问题,反爬好像是看IP原创 2017-03-03 10:42:05 · 2622 阅读 · 0 评论 -
[Python]项目打包:5步将py文件打包成exe文件
1.下载pyinstaller并解压(可以去官网下载最新版):http://nchc.dl.sourceforge.net/project/pyinstaller/2.0/pyinstaller-2.0.zip2.下载pywin32并安装(注意版本,我的是python2.7):http://download.csdn.net/download/lanlandechong/436转载 2017-03-22 14:14:15 · 798 阅读 · 0 评论 -
基于知乎关键词爬虫
# -*- coding: utf-8 -*-"""Created on Mon Dec 25 10:34:27 2017@author: gzs10227"""import urllib,urllib2,re,jsonimport requestsurllib.getproxies_registry =lambda:{}import sysstderr = sys.stde原创 2018-01-22 17:09:02 · 2279 阅读 · 1 评论 -
搜索电影资源
# -*- coding: utf-8 -*-"""Created on Tue Jan 30 17:01:26 2018@author: gzs10227搜索电影资源"""import reimport requestsimport time,datetimeimport pandas as pdimport urllibfrom uuid import getnod原创 2018-01-30 19:42:25 · 1825 阅读 · 0 评论 -
毕业设计之数据获取【人民网】
"""Created on Fri Jan 19 18:58:41 2018人民网新闻爬虫@author: gzs10227"""import sysstderr = sys.stderrstdout = sys.stdoutreload(sys)sys.setdefaultencoding('utf8')sys.stderr = stderrsys.stdout = st原创 2018-01-23 15:35:04 · 895 阅读 · 0 评论 -
搜索电影资源小助手
女朋友说经常找不到电影资源看,最近准备离职比较闲,所以做了一个小助手。版本1:只有搜索电影磁力链接的功能,慢慢增加功能# -*- coding: utf-8 -*-"""Created on Tue Jan 30 17:01:26 2018@author: gzs10227搜索电影资源"""import re,osimport requestsimport time,原创 2018-01-31 11:57:06 · 6241 阅读 · 0 评论 -
电影资源搜索助手2
新加功能,按什么保存文件;多个网址搜索资源# -*- coding: utf-8 -*-"""Created on Tue Jan 30 17:01:26 2018@author: gzs10227搜索电影资源"""import re,osimport requestsimport time,datetimeimport urllibimport sysstderr原创 2018-01-31 17:51:38 · 2249 阅读 · 0 评论 -
微博模拟登陆
因公司需求,需要爬取微博相关大v的账号以及相关信息,一开始是直接爬取,发现只可以爬取10条数据(没有登陆的情况下),所以就涉及到模拟登陆。import requestsimport jsonimport base64from lxml import etreefrom bs4 import BeautifulSoupimport timedef login(username, p原创 2017-02-23 10:19:05 · 1119 阅读 · 0 评论 -
解决下载妹子网图片数据不全的两种方法
方法一:# -*- coding: utf-8 -*-"""Created on Tue Nov 22 02:24:33 2016@author: alis"""import urllib,urllib2import timeimport tracebackbegin = time.clock()x = 0b = '/media/alis/个人文件资料/Spider/M原创 2016-11-22 15:48:49 · 3656 阅读 · 0 评论 -
爬虫编码解决1
在头默认设置编码为utf-8import sysreload(sys)sys.setdefaultencoding("utf-8") #设置系统编码为utf8原创 2016-10-22 12:39:42 · 507 阅读 · 0 评论 -
强大的request
# -*- coding: utf-8 -*-"""Created on Sat Oct 22 15:41:54 2016@author: alis"""import requests"""params = {'firstname':'liao','lastname':'qinghao'}url = 'http://pythonscraping.com/pages/files原创 2016-10-23 18:32:26 · 449 阅读 · 0 评论 -
selenium的进阶1
# -*- coding: utf-8 -*-"""Created on Sat Oct 22 18:14:07 2016@author: alis"""from selenium import webdriverimport time,urllib2from bs4 import BeautifulSoupbrowser = webdriver.Firefox()#设置浏原创 2016-10-23 18:34:15 · 470 阅读 · 0 评论 -
selenium进阶2
"""----------百度输入框的定位方式------------"""# 通过id方式定位browser.find_element_by_id("kw").clear()browser.find_element_by_id("kw").sent_keys('python')# 通过name方式定位browser.find_element_by_name("wd")#通过ta原创 2016-10-23 18:37:13 · 465 阅读 · 0 评论 -
python之selenium模拟登录QQ空间
# -*- coding: utf-8 -*-"""Created on Sat Oct 22 17:01:51 2016QQ空间模拟登录@author: alis"""#导入selenium2中的webdriver库from selenium import webdriver#实例化出一个Firefox浏览器driver = webdriver.Firefox()#设原创 2016-10-23 18:46:13 · 3851 阅读 · 1 评论 -
python之selenium模拟登录知乎
# -*- coding: utf-8 -*-"""Created on Sun Oct 23 16:16:58 2016@author: alis模拟知乎登陆"""from selenium import webdriverimport time browser = webdriver.Firefox()browser.get('http://www.zhihu.com/#原创 2016-10-23 18:47:51 · 1251 阅读 · 0 评论 -
python之selenium模拟登录微博
# -*- coding: utf-8 -*-"""Created on Sun Oct 23 17:04:18 2016@author: alis"""from selenium import webdriverimport timebrowser = webdriver.Firefox()browser.get('http://weibo.com/?sudaref=www原创 2016-10-23 18:49:43 · 1406 阅读 · 0 评论 -
爬取素材网的妹子图片
这几天心血来潮想研究研究一下scrapy,想测试下其在linux下爬取的速度,于是选取了妹子网来练手(之前爬过),但是获取的链接的竟然在解析下载图片时出现错误,于是换了一个素材网站!话不多说,贴上代码:# -*- coding: utf-8 -*-"""Created on Mon Nov 21 23:14:09 2016@author: alis"""from scrap原创 2016-11-22 15:43:19 · 1652 阅读 · 0 评论 -
bilibili网站爬虫
# -*- coding: utf-8 -*-"""Created on Mon May 07 11:05:49 2018B站爬虫:功能: 1 获取评论人数,点赞数,用户个人信息及评论等等@author: Alis"""import re,timeimport requestsimport osimport jsonheaders = {'user-agents':'U...原创 2018-05-07 12:53:24 · 2418 阅读 · 0 评论