博客专栏  >  编程语言   >  有趣的Python之旅

有趣的Python之旅

借人工智能的东风,Python近年很火爆; 而除了机器学习以外,Python做Web、爬虫、数据分析也是上上之选的语言; 本专栏将从基础、Web、爬虫、数据分析、机器学习等方向慢慢铺开,写到哪里算里; 为了分享,为了共同进步,为了坚持;

关注
0 已关注
21篇博文
  • 爬虫突破登录壁垒-1

    @什么是登录壁垒 如今的很多网站要求你必须是注册用户并且登录的状态下,才为你提供服务 所以爬虫的许多访问和抓取工作,也必须以登录为前提 用户通过用户名、密码、验证码登录,通常提交的都是POST请求...

    2018-02-05 10:50
    130
  • 爬虫突破登录壁垒-2:使用cookies

    @通过cookies突破登录壁垒 在《壁垒-1》中我们模拟用户名、密码、验证码的方式实现了登录 在其抓包的过程中,我们发现服务端是给我们返回了cookies的,cookies的作用即在于记录用户信...

    2018-02-05 11:21
    131
  • 使用IP代理发起http请求

    @概述 同一IP爬多了,对方服务器可能会意识到你是一个爬虫程序而非真实用户,那么你就有IP被封的风险 随机切换不同的代理IP进行爬取,可以规避封IP反爬(做点网站真是挺不容易的o(╥﹏╥)o) 获...

    2018-02-05 11:54
    1745
  • 使用scrapy框架爬取股票数据

    @概述 本例将手把手带大家实现一个使用scrapy框架爬取股票数据的例子 我们将同花顺中融资融券中的几只个股的历史数据爬下来,并保存为csv文件(csv格式是数据分析最友好的格式) 本例使用到了p...

    2018-02-05 17:45
    1110
  • scrapy框架的CrawlSpider类和LinkExtractor提取规则

    @业务场景 当爬虫的主要工作集中在对超链接的深度爬取而非首页时适用 当定义好子链接爬取规则时,框架会自动对子链接进行访问,并将不同样式的子链接页面结果交由不同回调函数处理 本例对《使用scrapy...

    2018-02-05 21:10
    244
  • 使用slenium+chromedriver实现无敌爬虫

    @概述 通常各大网站的后台都会有一定的反爬机制,既为了数据安全,也为了减小服务器压力 通常反爬的手段的方向,都是识别非浏览器客户端,而selenium所做的事情,恰恰是驱动真正的浏览器去执行请求和...

    2018-02-06 02:08
    2998
  • 使用requests配合【lxml+xpath】爬取B2B网站

    @导入类库 import requests from lxml import etree import time @准备请求头,以伪装客户端浏览器 # 请求头,可以由F12页面控制台或f...

    2018-02-04 08:31
    141
  • 使用requests爬取图片

    @简单的小例子,直接上代码 import requests # 发起http请求 # imgurl = 图片地址 # headers用于伪装客户端浏览器 res = requests.get(im...

    2018-02-04 08:55
    113
  • 爬取【ajax+json】异步加载的网站

    @导入类库 import requests from lxml import etree import json import time @请求地址和请求头 # 请求头,用于伪装客户端浏...

    2018-02-04 10:02
    516
  • 使用requests访问必应在线翻译

    @导包 import requests import json @在浏览器中访问必应在线翻译首页,抓包获得相应的请求头 # 请求必应在线翻译首页,通过在浏览器中访问抓包请求头 heade...

    2018-02-04 10:58
    412
  • 关于技术学习方法(持续更新)

    @iTemp-v5.3.4 多github,多看优秀源码,多跑多看多整理; 站在设计者的角度去思考(如果是我设计这玩意,我会怎么搞)——这样学习会更有效! @former 一定要有产物,产...

    2018-01-30 01:36
    99
  • fiddler抓包HTTPS请求

    fiddler抓包HTTPS请求 跟着教程来,保证100%成功抓HTTPS包 教程开始 安装fiddler 首先准备一台可以上网的windos电脑,准备一部智能手机。 fid...

    2018-02-02 20:15
    98
  • SQL经典40句

    登陆数据库: mysql -uroot –p passwd   查看库列表: show databases;   使用指定库 use test;   查看表列表 show tab...

    2016-08-02 15:56
    166
  • Python爬虫问题汇总(持续更新)

    @分布式爬虫的slave端找不到scrapy_redis: 运行slave端时使用:sudo scrapy crawl spidername,或sudo scrapy runspider mycr...

    2018-02-04 05:33
    411
  • Ubuntu下安装Mysql

    Ubuntu上安装MySQL非常简单只需要几条命令就可以完成。 1. sudo apt-get install mysql-server 2. sudo apt-get isntall mysql...

    2018-02-02 15:49
    46
  • Linux使用过程中琐碎问题及解决

    @搜狗拼音输入法忽然失灵,频繁提示“请删除.config/SogouPY并重启”: sudo rm-r ~/.config/SogouPY reboot @ubuntu16下安装chrome浏...

    2018-01-31 18:01
    128
  • 使用lxml+xpath解析html页面

    @待解析的页面 html lang="en"> title>Titletitle> body> h1> This is h1 h1> div> This is fisrt div ...

    2018-02-04 07:13
    409
  • 使用BeautifulSoup解析页面

    @安装beautifulsoup4: pip install beautifulsoup4 @引入类库 # 由bs4引入鸡汤 from bs4 import BeautifulSoup ...

    2018-02-04 07:36
    218
  • 使用requests进行简单http请求

    @引入类库 import requests @发起请求,获得页面内容 myheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1...

    2018-02-04 07:45
    116
  • 附录:PyCharm使用技巧(持续更新)

    注册和激活 选择通过server激活:http://idea.imsxm.com 设置和使用快捷键 @快捷键风格设置: File->Settings-&g...

    2018-01-30 10:40
    118

img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部